agufsamudra commited on
Commit
ee8fe63
Β·
verified Β·
1 Parent(s): 33f1d50

Add new SentenceTransformer model

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,562 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:532
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: firqaaa/indo-sentence-bert-base
10
+ widget:
11
+ - source_sentence: "Berikut adalah kueri pencarian yang ringkas:\n\n1. **\"Penumpukan\
12
+ \ lemak perut dan kesehatan\"** \n2. **\"Pengukuran jaringan adiposa subkutis\"\
13
+ **\n3. **\"Lemak perut indikator penyakit\"** \n\n\nSemoga membantu!\n"
14
+ sentences:
15
+ - waktu produktif pagi hari waktu produktif pagi hari adalah periode waktu di pagi
16
+ hari ketika kamu merasa paling fokus, berenergi, dan termotivasi untuk menyelesaikan
17
+ tugas. waktu produktif pagi hari adalah periode waktu di pagi hari ketika kamu
18
+ merasa paling fokus, berenergi, dan termotivasi untuk menyelesaikan tugas.
19
+ - miastenia gravis merupakan penyakit kelemahan otot sebagai akibat dari proses
20
+ autoimun yang menyerang bagian ujung saraf yang terhubung ke otot, sehingga stimulasi
21
+ dan respon antara saraf dan otot tidak berjalan dengan baik. miastenia gravis
22
+ adalah suatu penyakit autoimun yang memengaruhi sistem saraf dan otot. pada miastenia
23
+ gravis, sistem kekebalan tubuh menyerang dan merusak reseptor asetilkolin pada
24
+ otot, yang berfungsi untuk mentransmisikan sinyal saraf ke otot. hal ini mengakibatkan
25
+ kelemahan otot dan kelelahan yang berlebihan, terutama pada otot yang digunakan
26
+ untuk aktivitas yang memerlukan kekuatan.
27
+ - penumpukan lemak putih pada perut this measurement is used to evaluate body fat
28
+ distribution and overall body composition, often serving as an indicator of metabolic
29
+ health and risk for conditions like obesity, diabetes, and cardiovascular disease.
30
+ subcutaneous adipose tissue measurement refers to the assessment of the layer
31
+ of fat located just beneath the skin.
32
+ - source_sentence: "Berikut beberapa kueri pencarian:\n\n1. **efek tiamin pada metabolisme**\n\
33
+ 2. **vitamin b1 dan kesehatan jantung**\n3. **peran tiamin dalam tubuh** \n\n\n\
34
+ Semoga membantu! \U0001F60A \n"
35
+ sentences:
36
+ - kadar vitamin b1 metabolisme vitamin b1, atau tiamin, penting untuk metabolisme
37
+ karbohidrat, lemak, dan protein, serta untuk kesehatan saraf dan kardiovaskular
38
+ yang baik.<br /><br /> metabolisme vitamin b1, atau tiamin, penting untuk metabolisme
39
+ karbohidrat, lemak, dan protein, serta untuk kesehatan saraf dan kardiovaskular
40
+ yang baik.<br /><br />
41
+ - artritis psoriatik merupakan peradangan persendian pada individu dengan penyakit
42
+ psoriasis, yaitu penyakit autoimun yang ditandai dengan plak kulit yang merah,
43
+ tebal, dan bersisik keabuan. artritis psoriatik biasanya mengenai sendi pinggul,
44
+ lulut, dan jari-jari, muncul sekitar 1-10 tahun setelah diagnosis psoriasis ditegakkan,
45
+ namun beberapa kasus radang sendi dapat muncul mendahului kejadian psoriasis.
46
+ artritis psoriatik adalah bentuk arthritis inflamasi yang berkaitan dengan psoriasis,
47
+ menyebabkan nyeri, pembengkakan, dan kekakuan pada sendi, sering kali disertai
48
+ dengan gejala kulit.
49
+ - infeksi chlamydia merupakan infeksi menular seksual (ims) yang umum terjadi yang
50
+ disebabkan oleh bakteri chlamydia trachomatis. infeksi ini dapat menyebabkan infeksi
51
+ pada organ reproduksi, seperti leher rahim (servitis), saluran urin (uretritis),
52
+ dan bagian akhir usus besar (proktitis). pada perempuan, infeksi ini dapat menyebabkan
53
+ terjadinya nyeri panggul kronis, kehamilan ektopik, kemandulan, dan pelvic inflammatory
54
+ disease (pid). infeksi chlamydia adalah infeksi bakteri yang disebabkan oleh bakteri
55
+ chlamydia trachomatis. bakteri ini dapat menginfeksi saluran reproduksi pada pria
56
+ dan wanita, serta dapat menyebabkan infeksi pada mata, tenggorokan, dan rektum.
57
+ - source_sentence: "Berikut kueri pencarian trait/dna yang ringkas:\n\n1. **Miositis\
58
+ \ gejala**\n2. **Penyebab miositis**\n3. **Miositis autoimun** \n\n\nSemoga membantu!\
59
+ \ \n"
60
+ sentences:
61
+ - kolitis ulseratif merupakan salah satu penyakit yang termasuk ke dalam peradangan
62
+ saluran pencernaan (inflammatory bowel disease). kolitis ulseratif ditandai dengan
63
+ adanya peradangan berupa ulkus/tukak pada lapisan saluran cerna, umumnya terjadi
64
+ pada saluran cerna bagian bawah, mulai dari usus besar, rektum, hingga anus. kolitis
65
+ ulseratif adalah jenis penyakit radang usus kronis yang ditandai oleh peradangan
66
+ dan pembentukan luka terbuka pada dinding usus besar.
67
+ - miositis miositis adalah peradangan otot yang menyebabkan kelemahan, nyeri, dan
68
+ pembengkakan, sering kali disebabkan oleh penyakit autoimun atau infeksi. miositis
69
+ adalah peradangan otot yang menyebabkan kelemahan, nyeri, dan pembengkakan, sering
70
+ kali disebabkan oleh penyakit autoimun atau infeksi.
71
+ - "kanker prostat merupakan kelenjar yang terdapat pada sistem reproduksi pada laki-laki,\
72
+ \ terletak di bawah kandung kemih dan berfungsi untuk memproduksi cairan sebagai\
73
+ \ sumber nutrisi sperma. \n\nkanker prostat terbagi menjadi beberapa tipe,\
74
+ \ yaitu sebagai berikut : \n1. adenokarsinoma \n2. small cell carcinomas \n\
75
+ 3. tumor neuroendokrin \n4. karsinoma sel transisi \n5. sarkoma kanker prostat\
76
+ \ merupakan salah satu jenis kanker, dimana terjadi pembentukan sel yang tidak\
77
+ \ normal dan tidak terkendali dalam bentuk sel malignan (kanker) pada prostat."
78
+ - source_sentence: "Berikut kueri pencarian trait/dna yang ringkas:\n\n1. **Stroke\
79
+ \ pembuluh darah kecil**\n2. **Ischemic microstroke** \n3. **Arteri serebral mikro\
80
+ \ penyempitan**\n\n\nSemoga membantu! \n"
81
+ sentences:
82
+ - pembentukan selulit merupakan suatu kondisi dimana kulit terlihat bergelombang
83
+ dan berkeriput akibat timbunan lemak mendorong keluar jaringan ikat di bawah kulit
84
+ terutama di paha dan perut. selulit biasanya banyak ditemukan pada wanita hamil
85
+ yang mengalami kenaikan berat badan drastis. pembentukan selulit adalah penumpukan
86
+ lemak yang mendorong ke atas permukaan kulit, sementara jaringan ikat di bawahnya
87
+ menahannya.
88
+ - stroke pembuluh darah kecil merupakan gangguan aliran darah di arteri kecil dalam
89
+ otak. kondisi ini hanya melukai bagian otak yang disuplai oleh pembuluh darah
90
+ kecil, yang sering disebut sebagai wilayah vaskular arteri kecil. stroke pembuluh
91
+ darah kecil atau disebut juga stroke iskemik mikro adalah jenis stroke yang terjadi
92
+ ketika aliran darah ke otak terganggu akibat sumbatan atau penyempitan pada pembuluh
93
+ darah kecil di otak. jenis stroke ini seringkali melibatkan arteri kecil yang
94
+ disebut arteri serebral mikro. stroke pembuluh darah kecil cenderung memiliki
95
+ dampak yang lebih kecil dibandingkan dengan stroke iskemik besar, tetapi tetap
96
+ dapat menyebabkan kerusakan pada fungsi otak dan potensial mengakibatkan gejala
97
+ yang serius.<br />
98
+ - 'respons terhadap analgesik opioid analgesik adalah istilah yang digunakan untuk
99
+ golongan obat antinyeri. ada banyak jenis analgesik yang sering digunakan, salah
100
+ satunya adalah golongan opioid. \n\n
101
+
102
+
103
+ laporan ini menggunakan varian genetik yang lebih banyak hadir pada orang yang
104
+ lebih responsif terhadap analgesik opioid sebagai acuan. analgesik opioid, seperti
105
+ morfin dan oksikodon, bekerja pada sistem saraf pusat untuk mengurangi rasa sakit
106
+ dengan mengikat reseptor spesifik, terutama reseptor mu-opioid, sehingga menghilangkan
107
+ rasa sakit dan potensi efek samping.'
108
+ - source_sentence: "Berikut kueri pencarian trait/dna yang ringkas:\n\n1. **Kadar\
109
+ \ GGT dan fungsi hati** \n2. **Fungsi GGT dalam tubuh manusia**\n3. **Peningkatan\
110
+ \ GGT darah penyebabnya**\n\n\nSemoga membantu! \U0001F60A\n"
111
+ sentences:
112
+ - "gaya hidup sedentari merupakan segala kegiatan yang dilakukan kecuali saat tidur\
113
+ \ dengan keluaran kalori <1.5 mets. aktivitas dengan keluaran kalori <1.5 mets\
114
+ \ adalah posisi duduk dan berbaring. \n\\n\\n\ngaya hidup sedentari adalah gaya\
115
+ \ hidup yang tidak aktif yang dapat meningkatkan risiko terjadinya penyakit kardiovaskular,\
116
+ \ diabetes mellitus tipe 2, penyakit muskuloskeletal dan gangguan psikologis seperti\
117
+ \ cemas dan depresi. gaya hidup sedentari merujuk pada pola kehidupan yang didominasi\
118
+ \ oleh aktivitas fisik yang minim atau kurang gerakan tubuh secara teratur."
119
+ - "respons terhadap vaksin pertusis pertusis merupakan bakteri yang dapat menginfeksi\
120
+ \ saluran nafas dan jaringan paru-paru, mengakibatkan gejala seperti batuk yang\
121
+ \ kuat (batuk rejan). vaksin pertusis diberikan untuk mencegah terjadinya batuk\
122
+ \ rejan akibat infeksi dari bakteri pertusis. \\n\\n\n\n laporan ini menggunakan\
123
+ \ varian genetik yang lebih banyak hadir pada orang yang lebih responsif terhadap\
124
+ \ vaksin pertusis sebagai acuan. vaksin pertusis merangsang sistem kekebalan\
125
+ \ tubuh untuk memproduksi antibodi pelindung terhadap bordetella pertussis, bakteri\
126
+ \ penyebab batuk rejan, memberikan kekebalan dan mengurangi keparahan penyakit\
127
+ \ jika terjadi paparan."
128
+ - kadar ggt ggt (gamma-glutamyl transferase) adalah enzim yang dapat ditemukan di
129
+ berbagai bagian tubuh seperti paru-paru dan saluran empedu, tetapi enzim ini banyak
130
+ ditemukan di hati. kadar ggt merupakan salah satu parameter yang digunakan untuk
131
+ melihat fungsi hati. gamma-glutamyl transferase (ggt) adalah enzim yang ditemukan
132
+ di hati yang bila kadarnya meningkat dalam darah, dapat mengindikasikan disfungsi
133
+ hati atau saluran empedu.
134
+ pipeline_tag: sentence-similarity
135
+ library_name: sentence-transformers
136
+ metrics:
137
+ - cosine_accuracy
138
+ - dot_accuracy
139
+ - manhattan_accuracy
140
+ - euclidean_accuracy
141
+ - max_accuracy
142
+ model-index:
143
+ - name: SentenceTransformer based on firqaaa/indo-sentence-bert-base
144
+ results:
145
+ - task:
146
+ type: triplet
147
+ name: Triplet
148
+ dataset:
149
+ name: trait validation
150
+ type: trait-validation
151
+ metrics:
152
+ - type: cosine_accuracy
153
+ value: 1.0
154
+ name: Cosine Accuracy
155
+ - type: dot_accuracy
156
+ value: 0.0
157
+ name: Dot Accuracy
158
+ - type: manhattan_accuracy
159
+ value: 1.0
160
+ name: Manhattan Accuracy
161
+ - type: euclidean_accuracy
162
+ value: 1.0
163
+ name: Euclidean Accuracy
164
+ - type: max_accuracy
165
+ value: 1.0
166
+ name: Max Accuracy
167
+ - task:
168
+ type: triplet
169
+ name: Triplet
170
+ dataset:
171
+ name: trait embedding
172
+ type: trait_embedding
173
+ metrics:
174
+ - type: cosine_accuracy
175
+ value: 1.0
176
+ name: Cosine Accuracy
177
+ - type: dot_accuracy
178
+ value: 0.0
179
+ name: Dot Accuracy
180
+ - type: manhattan_accuracy
181
+ value: 1.0
182
+ name: Manhattan Accuracy
183
+ - type: euclidean_accuracy
184
+ value: 1.0
185
+ name: Euclidean Accuracy
186
+ - type: max_accuracy
187
+ value: 1.0
188
+ name: Max Accuracy
189
+ ---
190
+
191
+ # SentenceTransformer based on firqaaa/indo-sentence-bert-base
192
+
193
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [firqaaa/indo-sentence-bert-base](https://huggingface.co/firqaaa/indo-sentence-bert-base). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
194
+
195
+ ## Model Details
196
+
197
+ ### Model Description
198
+ - **Model Type:** Sentence Transformer
199
+ - **Base model:** [firqaaa/indo-sentence-bert-base](https://huggingface.co/firqaaa/indo-sentence-bert-base) <!-- at revision af8d649e60fbd85b6e1dee7649a749a83996304f -->
200
+ - **Maximum Sequence Length:** 512 tokens
201
+ - **Output Dimensionality:** 768 tokens
202
+ - **Similarity Function:** Cosine Similarity
203
+ <!-- - **Training Dataset:** Unknown -->
204
+ <!-- - **Language:** Unknown -->
205
+ <!-- - **License:** Unknown -->
206
+
207
+ ### Model Sources
208
+
209
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
210
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
211
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
212
+
213
+ ### Full Model Architecture
214
+
215
+ ```
216
+ SentenceTransformer(
217
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
218
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
219
+ )
220
+ ```
221
+
222
+ ## Usage
223
+
224
+ ### Direct Usage (Sentence Transformers)
225
+
226
+ First install the Sentence Transformers library:
227
+
228
+ ```bash
229
+ pip install -U sentence-transformers
230
+ ```
231
+
232
+ Then you can load this model and run inference.
233
+ ```python
234
+ from sentence_transformers import SentenceTransformer
235
+
236
+ # Download from the πŸ€— Hub
237
+ model = SentenceTransformer("agufsamudra/trait-embedding")
238
+ # Run inference
239
+ sentences = [
240
+ 'Berikut kueri pencarian trait/dna yang ringkas:\n\n1. **Kadar GGT dan fungsi hati** \n2. **Fungsi GGT dalam tubuh manusia**\n3. **Peningkatan GGT darah penyebabnya**\n\n\nSemoga membantu! 😊\n',
241
+ 'kadar ggt ggt (gamma-glutamyl transferase) adalah enzim yang dapat ditemukan di berbagai bagian tubuh seperti paru-paru dan saluran empedu, tetapi enzim ini banyak ditemukan di hati. kadar ggt merupakan salah satu parameter yang digunakan untuk melihat fungsi hati. gamma-glutamyl transferase (ggt) adalah enzim yang ditemukan di hati yang bila kadarnya meningkat dalam darah, dapat mengindikasikan disfungsi hati atau saluran empedu.',
242
+ 'gaya hidup sedentari merupakan segala kegiatan yang dilakukan kecuali saat tidur dengan keluaran kalori <1.5 mets. aktivitas dengan keluaran kalori <1.5 mets adalah posisi duduk dan berbaring. \n\\n\\n\ngaya hidup sedentari adalah gaya hidup yang tidak aktif yang dapat meningkatkan risiko terjadinya penyakit kardiovaskular, diabetes mellitus tipe 2, penyakit muskuloskeletal dan gangguan psikologis seperti cemas dan depresi. gaya hidup sedentari merujuk pada pola kehidupan yang didominasi oleh aktivitas fisik yang minim atau kurang gerakan tubuh secara teratur.',
243
+ ]
244
+ embeddings = model.encode(sentences)
245
+ print(embeddings.shape)
246
+ # [3, 768]
247
+
248
+ # Get the similarity scores for the embeddings
249
+ similarities = model.similarity(embeddings, embeddings)
250
+ print(similarities.shape)
251
+ # [3, 3]
252
+ ```
253
+
254
+ <!--
255
+ ### Direct Usage (Transformers)
256
+
257
+ <details><summary>Click to see the direct usage in Transformers</summary>
258
+
259
+ </details>
260
+ -->
261
+
262
+ <!--
263
+ ### Downstream Usage (Sentence Transformers)
264
+
265
+ You can finetune this model on your own dataset.
266
+
267
+ <details><summary>Click to expand</summary>
268
+
269
+ </details>
270
+ -->
271
+
272
+ <!--
273
+ ### Out-of-Scope Use
274
+
275
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
276
+ -->
277
+
278
+ ## Evaluation
279
+
280
+ ### Metrics
281
+
282
+ #### Triplet
283
+ * Dataset: `trait-validation`
284
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
285
+
286
+ | Metric | Value |
287
+ |:-------------------|:--------|
288
+ | cosine_accuracy | 1.0 |
289
+ | dot_accuracy | 0.0 |
290
+ | manhattan_accuracy | 1.0 |
291
+ | euclidean_accuracy | 1.0 |
292
+ | **max_accuracy** | **1.0** |
293
+
294
+ #### Triplet
295
+ * Dataset: `trait_embedding`
296
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
297
+
298
+ | Metric | Value |
299
+ |:-------------------|:--------|
300
+ | cosine_accuracy | 1.0 |
301
+ | dot_accuracy | 0.0 |
302
+ | manhattan_accuracy | 1.0 |
303
+ | euclidean_accuracy | 1.0 |
304
+ | **max_accuracy** | **1.0** |
305
+
306
+ <!--
307
+ ## Bias, Risks and Limitations
308
+
309
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
310
+ -->
311
+
312
+ <!--
313
+ ### Recommendations
314
+
315
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
316
+ -->
317
+
318
+ ## Training Details
319
+
320
+ ### Training Dataset
321
+
322
+ #### Unnamed Dataset
323
+
324
+
325
+ * Size: 532 training samples
326
+ * Columns: <code>query</code>, <code>trait</code>, and <code>trait_negative</code>
327
+ * Approximate statistics based on the first 532 samples:
328
+ | | query | trait | trait_negative |
329
+ |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
330
+ | type | string | string | string |
331
+ | details | <ul><li>min: 8 tokens</li><li>mean: 48.12 tokens</li><li>max: 99 tokens</li></ul> | <ul><li>min: 13 tokens</li><li>mean: 78.99 tokens</li><li>max: 207 tokens</li></ul> | <ul><li>min: 15 tokens</li><li>mean: 79.99 tokens</li><li>max: 207 tokens</li></ul> |
332
+ * Samples:
333
+ | query | trait | trait_negative |
334
+ |:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
335
+ | <code>Berikut kueri pencarian yang ringkas:<br><br>1. **Fungsi kognitif** <br>2. **Proses mental manusia**<br>3. **Bagaimana cara otak berpikir**<br><br><br>Semoga membantu! <br></code> | <code>fungsi kognitif fungsi kognitif adalah istilah yang mengacu pada semua proses mental yang memungkinkan kita untuk berpikir, belajar, dan memahami dunia di sekitar kita. fungsi kognitif adalah istilah yang mengacu pada semua proses mental yang memungkinkan kita untuk berpikir, belajar, dan memahami dunia di sekitar kita.</code> | <code>batuk yang disebabkan penghambat ace (angiotensin-converting enzyme inhibitors) penghambat ace adalah salah satu jenis obat yang digunakan dalam pengobatan tekanan darah tinggi (hipertensi). penggunaan penghambat ace dapat menyebabkan efek samping berupa batuk. \n\n<br><br>laporan ini menggunakan varian genetik yang lebih banyak hadir pada orang yang mengalami efek samping terhadap penghambat ace merupakan acuan. batuk yang disebabkan oleh penghambat ace (inhibitor enzim pengubah angiotensin) adalah efek samping yang dapat terjadi sebagai respons terhadap obat-obatan tersebut, di mana penghambatan enzim tersebut dapat menyebabkan iritasi pada saluran udara, memicu batuk pada sebagian individu.</code> |
336
+ | <code>Berikut kueri pencarian trait/dna tersebut:<br><br>1. **"Kemawasan diri dan model kepribadian lima besar"**<br>2. **"Ciri-ciri orang bertanggung jawab dan terorganisir"**<br>3. **"Pengembangan regulasi emosi dan pertumbuhan pribadi"** <br><br><br>Semoga membantu! 😊<br></code> | <code>kemawasan diri merupakan salah satu elemen dari lima besar model kepribadian dan model kepribadian lima besar yang ditandai dengan kecenderungan terorganisasi, bertanggung jawab dan pekerja keras, terarah pada tujuan dan mematuhi norma atau peraturan yang ada. kemawasan diri adalah kemampuan untuk memahami dan mengenali diri sendiri secara mendalam, memungkinkan pengembangan regulasi emosi dan pertumbuhan pribadi yang optimal.</code> | <code>henti jantung mendadak merupakan suatu kondisi dimana jantung tiba-tiba berhenti berdetak, dan penderita akan mengalami kematian jika tidak diberikan penanganan dalam hitungan menit. serangan jantung mendadak adalah suatu kondisi yang mengancam jiwa yang terjadi ketika jantung tiba-tiba berhenti berdetak, sehingga menyebabkan terhentinya aliran darah ke tubuh.<br /></code> |
337
+ | <code>Berikut kueri pencarian trait/dna yang ringkas:<br><br>1. **sikap kooperatif**<br>2. **kepribadian ramah**<br>3. **fleksibel dalam negosiasi** <br><br><br>Semoga membantu! 😊 <br></code> | <code>keramahan atau kemudahan untuk bersepakat merupakan salah satu elemen dari lima besar model kepribadian yang ditandai dengan adanya kecenderungan untuk bersikap kooperatif, tidak mementingkan diri sendiri, sopan, baik dan ramah. keramahan atau kemudahan untuk bersepakat merujuk pada sikap terbuka, ramah, dan fleksibel dalam menjalani proses perundingan atau kerjasama.</code> | <code>penyakit jantung koroner penyakit jantung koroner (pjk) adalah kondisi dimana pembuluh darah arteri koroner yang memasok darah ke jantung mengalami penyempitan atau penyumbatan, menyebabkan kurangnya pasokan darah ke jantung. penyakit jantung koroner (pjk) adalah kondisi dimana pembuluh darah arteri koroner yang memasok darah ke jantung mengalami penyempitan atau penyumbatan, menyebabkan kurangnya pasokan darah ke jantung.</code> |
338
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
339
+ ```json
340
+ {
341
+ "scale": 20.0,
342
+ "similarity_fct": "cos_sim"
343
+ }
344
+ ```
345
+
346
+ ### Evaluation Dataset
347
+
348
+ #### Unnamed Dataset
349
+
350
+
351
+ * Size: 114 evaluation samples
352
+ * Columns: <code>query</code>, <code>trait</code>, and <code>trait_negative</code>
353
+ * Approximate statistics based on the first 114 samples:
354
+ | | query | trait | trait_negative |
355
+ |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
356
+ | type | string | string | string |
357
+ | details | <ul><li>min: 5 tokens</li><li>mean: 47.66 tokens</li><li>max: 76 tokens</li></ul> | <ul><li>min: 16 tokens</li><li>mean: 81.01 tokens</li><li>max: 167 tokens</li></ul> | <ul><li>min: 13 tokens</li><li>mean: 82.3 tokens</li><li>max: 201 tokens</li></ul> |
358
+ * Samples:
359
+ | query | trait | trait_negative |
360
+ |:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
361
+ | <code>Berikut kueri pencarian yang singkat dan seperti manusia:<br><br>1. **Panjang telomer & penuaan**<br>2. **Indikator penuaan berdasarkan telomere** <br>3. **Telomere memengaruhi regenerasi sel** <br><br><br>Semoga membantu! 😊 <br></code> | <code>penuaan dan panjang telomere telomer adalah bagian paling ujung dari kromosom yang akan memendek seiring bertambahnya usia. telomer dapat dijadikan sebagai indikator proses penuaan dan kesehatan seseorang. penuaan terkait dengan panjang telomere, bagian ujung kromosom yang melibatkan kerusakan dan penurunan fungsi sel, mempengaruhi kemampuan sel untuk meregenerasi dan memainkan peran dalam proses penuaan.</code> | <code>urgensi negatif (negative urgency) urgensi negatif merupakan kecenderungan untuk bertindak gegabah ketika tertekan, yang ditandai dengan kecenderungan emosi negatif yang tinggi, kehati-hatian yang rendah, dan kepatuhan yang rendah. karena serangkaian karakteristik ini, urgensi negatif merupakan prediktor penting dari disfungsi eksternal. urgensi negatif merupakan kecenderungan untuk bertindak gegabah ketika tertekan, yang ditandai dengan kecenderungan emosi negatif yang tinggi, kehati-hatian yang rendah, dan kepatuhan yang rendah. karena serangkaian karakteristik ini, urgensi negatif merupakan prediktor penting dari disfungsi eksternal.</code> |
362
+ | <code>Berikut kueri pencarian trait/dna yang ringkas:<br><br>1. **Pengertian kadar hematokrit** <br>2. **Fungsi kadar hematokrit**<br>3. **Kadar hematokrit dalam pemeriksaan darah**<br><br><br>Semoga membantu! <br></code> | <code>kadar hematokrit merupakan perbandingan jumlah eritrosit terhadap volume darah dalam sataun persen. kadar hematokrit digunakan sebagai salah satu parameter dalam pemeriksaan darah. tingkat hematokrit adalah ukuran proporsi sel darah merah terhadap total volume darah, yang menunjukkan kapasitas darah untuk membawa oksigen dan nutrisi.<br /></code> | <code>adhd merupakan gangguan kejiwaan yang paling banyak terjadi pada anak-anak (laki-laki > perempuan) dan ditandai dengan inatensi (kesulitan untuk fokus dalam mengerjakan sesuatu), hiperaktivitas (pergerakan berlebihan yang tidak sesuai dengan tempatnya), dan impulsivitas (melakukan tindakan yang terburu-buru tanpa memikirkannya terlebih dahulu). adhd, atau attention deficit hyperactivity disorder, adalah kondisi neurodevelopmental yang ditandai oleh pola-pola yang persisten dari ketidakfokusan, impulsivitas, dan hiperaktivitas yang dapat mempengaruhi fungsi sehari-hari.</code> |
363
+ | <code>Berikut kueri pencarian trait/dna dengan maksimal 3 kata:<br><br>1. **Ketergantungan penghargaan**<br>2. **Kebutuhan pujian sosial**<br>3. **Pujian dan kepribadian** <br><br><br>Semoga membantu!<br></code> | <code>ketergantungan terhadap penghargaan merupakan salah satu model kepribadian yang ditandai dengan adanya kecenderungan untuk merespons secara nyata sinyal penghargaan, terutama sinyal verbal persetujuan sosial, dukungan sosial, dan sentimen. ketergantungan terhadap penghargaan merujuk pada kondisi psikologis seseorang yang mengalami keterikatan emosional atau kebutuhan yang mendalam terhadap pujian, pengakuan, atau bentuk penghargaan lainnya dari orang lain.</code> | <code>ritme sirkadian merupakan siklus 24 jam tubuh manusia yang memiliki peran penting dalam siklus bangun dan tidur. ritme sirkadian adalah pola tidur-bangun selama 24 jam sehari.<br><br />ini membantu mengontrol jadwal harian anda untuk tidur dan terjaga.</code> |
364
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
365
+ ```json
366
+ {
367
+ "scale": 20.0,
368
+ "similarity_fct": "cos_sim"
369
+ }
370
+ ```
371
+
372
+ ### Training Hyperparameters
373
+ #### Non-Default Hyperparameters
374
+
375
+ - `eval_strategy`: steps
376
+ - `per_device_train_batch_size`: 16
377
+ - `per_device_eval_batch_size`: 16
378
+ - `learning_rate`: 2e-05
379
+ - `warmup_ratio`: 0.1
380
+ - `batch_sampler`: no_duplicates
381
+
382
+ #### All Hyperparameters
383
+ <details><summary>Click to expand</summary>
384
+
385
+ - `overwrite_output_dir`: False
386
+ - `do_predict`: False
387
+ - `eval_strategy`: steps
388
+ - `prediction_loss_only`: True
389
+ - `per_device_train_batch_size`: 16
390
+ - `per_device_eval_batch_size`: 16
391
+ - `per_gpu_train_batch_size`: None
392
+ - `per_gpu_eval_batch_size`: None
393
+ - `gradient_accumulation_steps`: 1
394
+ - `eval_accumulation_steps`: None
395
+ - `torch_empty_cache_steps`: None
396
+ - `learning_rate`: 2e-05
397
+ - `weight_decay`: 0.0
398
+ - `adam_beta1`: 0.9
399
+ - `adam_beta2`: 0.999
400
+ - `adam_epsilon`: 1e-08
401
+ - `max_grad_norm`: 1.0
402
+ - `num_train_epochs`: 3
403
+ - `max_steps`: -1
404
+ - `lr_scheduler_type`: linear
405
+ - `lr_scheduler_kwargs`: {}
406
+ - `warmup_ratio`: 0.1
407
+ - `warmup_steps`: 0
408
+ - `log_level`: passive
409
+ - `log_level_replica`: warning
410
+ - `log_on_each_node`: True
411
+ - `logging_nan_inf_filter`: True
412
+ - `save_safetensors`: True
413
+ - `save_on_each_node`: False
414
+ - `save_only_model`: False
415
+ - `restore_callback_states_from_checkpoint`: False
416
+ - `no_cuda`: False
417
+ - `use_cpu`: False
418
+ - `use_mps_device`: False
419
+ - `seed`: 42
420
+ - `data_seed`: None
421
+ - `jit_mode_eval`: False
422
+ - `use_ipex`: False
423
+ - `bf16`: False
424
+ - `fp16`: False
425
+ - `fp16_opt_level`: O1
426
+ - `half_precision_backend`: auto
427
+ - `bf16_full_eval`: False
428
+ - `fp16_full_eval`: False
429
+ - `tf32`: None
430
+ - `local_rank`: 0
431
+ - `ddp_backend`: None
432
+ - `tpu_num_cores`: None
433
+ - `tpu_metrics_debug`: False
434
+ - `debug`: []
435
+ - `dataloader_drop_last`: False
436
+ - `dataloader_num_workers`: 0
437
+ - `dataloader_prefetch_factor`: None
438
+ - `past_index`: -1
439
+ - `disable_tqdm`: False
440
+ - `remove_unused_columns`: True
441
+ - `label_names`: None
442
+ - `load_best_model_at_end`: False
443
+ - `ignore_data_skip`: False
444
+ - `fsdp`: []
445
+ - `fsdp_min_num_params`: 0
446
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
447
+ - `fsdp_transformer_layer_cls_to_wrap`: None
448
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
449
+ - `deepspeed`: None
450
+ - `label_smoothing_factor`: 0.0
451
+ - `optim`: adamw_torch
452
+ - `optim_args`: None
453
+ - `adafactor`: False
454
+ - `group_by_length`: False
455
+ - `length_column_name`: length
456
+ - `ddp_find_unused_parameters`: None
457
+ - `ddp_bucket_cap_mb`: None
458
+ - `ddp_broadcast_buffers`: False
459
+ - `dataloader_pin_memory`: True
460
+ - `dataloader_persistent_workers`: False
461
+ - `skip_memory_metrics`: True
462
+ - `use_legacy_prediction_loop`: False
463
+ - `push_to_hub`: False
464
+ - `resume_from_checkpoint`: None
465
+ - `hub_model_id`: None
466
+ - `hub_strategy`: every_save
467
+ - `hub_private_repo`: None
468
+ - `hub_always_push`: False
469
+ - `gradient_checkpointing`: False
470
+ - `gradient_checkpointing_kwargs`: None
471
+ - `include_inputs_for_metrics`: False
472
+ - `include_for_metrics`: []
473
+ - `eval_do_concat_batches`: True
474
+ - `fp16_backend`: auto
475
+ - `push_to_hub_model_id`: None
476
+ - `push_to_hub_organization`: None
477
+ - `mp_parameters`:
478
+ - `auto_find_batch_size`: False
479
+ - `full_determinism`: False
480
+ - `torchdynamo`: None
481
+ - `ray_scope`: last
482
+ - `ddp_timeout`: 1800
483
+ - `torch_compile`: False
484
+ - `torch_compile_backend`: None
485
+ - `torch_compile_mode`: None
486
+ - `dispatch_batches`: None
487
+ - `split_batches`: None
488
+ - `include_tokens_per_second`: False
489
+ - `include_num_input_tokens_seen`: False
490
+ - `neftune_noise_alpha`: None
491
+ - `optim_target_modules`: None
492
+ - `batch_eval_metrics`: False
493
+ - `eval_on_start`: False
494
+ - `use_liger_kernel`: False
495
+ - `eval_use_gather_object`: False
496
+ - `average_tokens_across_devices`: False
497
+ - `batch_sampler`: no_duplicates
498
+ - `multi_dataset_batch_sampler`: proportional
499
+
500
+ </details>
501
+
502
+ ### Training Logs
503
+ | Epoch | Step | trait-validation_max_accuracy | trait_embedding_max_accuracy |
504
+ |:------:|:----:|:-----------------------------:|:----------------------------:|
505
+ | 2.8824 | 51 | 1.0 | 1.0 |
506
+
507
+
508
+ ### Framework Versions
509
+ - Python: 3.12.3
510
+ - Sentence Transformers: 3.2.1
511
+ - Transformers: 4.47.0
512
+ - PyTorch: 2.5.1+cu124
513
+ - Accelerate: 1.1.1
514
+ - Datasets: 3.1.0
515
+ - Tokenizers: 0.21.0
516
+
517
+ ## Citation
518
+
519
+ ### BibTeX
520
+
521
+ #### Sentence Transformers
522
+ ```bibtex
523
+ @inproceedings{reimers-2019-sentence-bert,
524
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
525
+ author = "Reimers, Nils and Gurevych, Iryna",
526
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
527
+ month = "11",
528
+ year = "2019",
529
+ publisher = "Association for Computational Linguistics",
530
+ url = "https://arxiv.org/abs/1908.10084",
531
+ }
532
+ ```
533
+
534
+ #### MultipleNegativesRankingLoss
535
+ ```bibtex
536
+ @misc{henderson2017efficient,
537
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
538
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
539
+ year={2017},
540
+ eprint={1705.00652},
541
+ archivePrefix={arXiv},
542
+ primaryClass={cs.CL}
543
+ }
544
+ ```
545
+
546
+ <!--
547
+ ## Glossary
548
+
549
+ *Clearly define terms in order to be accessible across audiences.*
550
+ -->
551
+
552
+ <!--
553
+ ## Model Card Authors
554
+
555
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
556
+ -->
557
+
558
+ <!--
559
+ ## Model Card Contact
560
+
561
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
562
+ -->
config.json ADDED
@@ -0,0 +1,47 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "firqaaa/indo-sentence-bert-base",
3
+ "_num_labels": 5,
4
+ "architectures": [
5
+ "BertModel"
6
+ ],
7
+ "attention_probs_dropout_prob": 0.1,
8
+ "classifier_dropout": null,
9
+ "directionality": "bidi",
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 768,
13
+ "id2label": {
14
+ "0": "LABEL_0",
15
+ "1": "LABEL_1",
16
+ "2": "LABEL_2",
17
+ "3": "LABEL_3",
18
+ "4": "LABEL_4"
19
+ },
20
+ "initializer_range": 0.02,
21
+ "intermediate_size": 3072,
22
+ "label2id": {
23
+ "LABEL_0": 0,
24
+ "LABEL_1": 1,
25
+ "LABEL_2": 2,
26
+ "LABEL_3": 3,
27
+ "LABEL_4": 4
28
+ },
29
+ "layer_norm_eps": 1e-12,
30
+ "max_position_embeddings": 512,
31
+ "model_type": "bert",
32
+ "num_attention_heads": 12,
33
+ "num_hidden_layers": 12,
34
+ "output_past": true,
35
+ "pad_token_id": 0,
36
+ "pooler_fc_size": 768,
37
+ "pooler_num_attention_heads": 12,
38
+ "pooler_num_fc_layers": 3,
39
+ "pooler_size_per_head": 128,
40
+ "pooler_type": "first_token_transform",
41
+ "position_embedding_type": "absolute",
42
+ "torch_dtype": "float32",
43
+ "transformers_version": "4.47.0",
44
+ "type_vocab_size": 2,
45
+ "use_cache": true,
46
+ "vocab_size": 50000
47
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.2.1",
4
+ "transformers": "4.47.0",
5
+ "pytorch": "2.5.1+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a75e86907e2a143e29e4e8ed15d86b6f40d94cf6e3c0a3ed48a0894bdd004b5e
3
+ size 497787752
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "[UNK]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,65 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[PAD]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "[UNK]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "[CLS]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "[SEP]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "4": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "clean_up_tokenization_spaces": false,
45
+ "cls_token": "[CLS]",
46
+ "do_basic_tokenize": true,
47
+ "do_lower_case": true,
48
+ "extra_special_tokens": {},
49
+ "mask_token": "[MASK]",
50
+ "max_length": 512,
51
+ "model_max_length": 512,
52
+ "never_split": null,
53
+ "pad_to_multiple_of": null,
54
+ "pad_token": "[PAD]",
55
+ "pad_token_type_id": 0,
56
+ "padding_side": "right",
57
+ "sep_token": "[SEP]",
58
+ "stride": 0,
59
+ "strip_accents": null,
60
+ "tokenize_chinese_chars": true,
61
+ "tokenizer_class": "BertTokenizer",
62
+ "truncation_side": "right",
63
+ "truncation_strategy": "longest_first",
64
+ "unk_token": "[UNK]"
65
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff