ictumuk commited on
Commit
8745576
·
verified ·
1 Parent(s): 9bc1cb2

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,732 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: intfloat/multilingual-e5-large
3
+ library_name: sentence-transformers
4
+ metrics:
5
+ - cosine_accuracy
6
+ - cosine_accuracy_threshold
7
+ - cosine_f1
8
+ - cosine_f1_threshold
9
+ - cosine_precision
10
+ - cosine_recall
11
+ - cosine_ap
12
+ - cosine_mcc
13
+ pipeline_tag: sentence-similarity
14
+ tags:
15
+ - sentence-transformers
16
+ - sentence-similarity
17
+ - feature-extraction
18
+ - generated_from_trainer
19
+ - dataset_size:4391
20
+ - loss:CoSENTLoss
21
+ widget:
22
+ - source_sentence: Đơn vị nào có trách nhiệm xây dựng và triển khai hoạt động phổ
23
+ biến kiến thức, nâng cao nhận thức về an ninh mạng cho cơ quan, tổ chức, cá nhân
24
+ của tỉnh?
25
+ sentences:
26
+ - 'Phòng, chống khủng bố mạng
27
+
28
+
29
+ 1. Cơ quan nhà nước có thẩm quyền có trách nhiệm áp dụng biện pháp theo quy định
30
+ của Luật này, Điều 29 của Luật An toàn thông tin mạng và pháp luật về phòng, chống
31
+ khủng bố để xử lý khủng bố mạng. Chủ quản hệ thống thông tin thường xuyên rà soát,
32
+ kiểm tra hệ thống thông tin thuộc phạm vi quản lý nhằm loại trừ nguy cơ khủng
33
+ bố mạng.
34
+
35
+
36
+ 3. Khi phát hiện dấu hiệu, hành vi khủng bố mạng, cơ quan, tổ chức, cá nhân phải
37
+ kịp thời báo cho lực lượng bảo vệ an ninh mạng. Cơ quan tiếp nhận tin báo có trách
38
+ nhiệm tiếp nhận đầy đủ tin báo về khủng bố mạng và kịp thời thông báo cho lực
39
+ lượng chuyên trách bảo vệ an ninh mạng.
40
+
41
+
42
+ 4. Bộ Công an chủ trì, phối hợp với Bộ, ngành có liên quan triển khai công tác
43
+ phòng, chống khủng bố mạng, áp dụng biện pháp vô hiệu hóa nguồn khủng bố mạng,
44
+ xử lý khủng bố mạng, hạn chế đến mức thấp nhất hậu quả xảy ra đối với hệ thống
45
+ thông tin, trừ trường hợp quy định tại khoản 5 và khoản 6 Điều này.
46
+
47
+
48
+ 5. Bộ Quốc phòng chủ trì, phối hợp với Bộ, ngành có liên quan triển khai công
49
+ tác phòng, chống khủng bố mạng, áp dụng biện pháp xử lý khủng bố mạng xảy ra đối
50
+ với hệ thống thông tin quân sự.
51
+
52
+
53
+ 6. Ban Cơ yếu Chính phủ chủ trì, phối hợp với Bộ, ngành có liên quan triển khai
54
+ công tác phòng, chống khủng bố mạng, áp dụng biện pháp xử lý khủng bố mạng xảy
55
+ ra đối với hệ thống thông tin cơ yếu thuộc Ban Cơ yếu Chính phủ.'
56
+ - '1. Công trình đường cao tốc khi đưa vào khai thác, sử dụng phải được quản lý,
57
+ khai thác và bảo trì theo quy định tại Luật Giao thông đường bộ, Nghị định số
58
+ 32/2014/NĐ-CP ngày 22 tháng 4 năm 2014 của Chính phủ về quản lý, khai thác và
59
+ bảo trì công trình đường cao tốc (sau đây gọi tắt là Nghị định số 32/2014/NĐ-CP),
60
+ Nghị định số 11/2010/NĐ-CP ngày 24 tháng 02 năm 2010 của Chính phủ quy định về
61
+ quản lý và bảo vệ kết cấu hạ tầng giao thông đường bộ (sau đây gọi tắt là Nghị
62
+ định số 11/2010/NĐ-CP), Nghị định số 100/2013/NĐ-CP ngày 03 tháng 9 năm 2013 của
63
+ Chính phủ về sửa đổi, bổ sung một số điều của Nghị định số 11/2010/NĐ-CP ngày
64
+ 24 tháng 02 năm 2010 (sau đây gọi tắt là Nghị định số 100/2013/NĐ-CP), Nghị định
65
+ số 114/2010/NĐ-CP ngày 06 tháng 12 năm 2010 của Chính phủ về bảo trì công trình
66
+ xây dựng (sau đây gọi tắt là Nghị định số 114/2010/NĐ-CP), Nghị định số 10/2013/NĐ-CP
67
+ ngày 11 tháng 01 năm 2013 của Chính phủ quy định việc quản lý, sử dụng và khai
68
+ thác tài sản kết cấu hạ tầng giao thông đường bộ (sau đây gọi tắt là Nghị định
69
+ số 10/2013/NĐ-CP), các văn bản quy phạm pháp luật có liên quan và quy định tại
70
+ Thông tư này.
71
+
72
+ 2. Việc quản lý, khai thác và bảo trì công trình đường cao tốc phải thực hiện
73
+ theo quy trình vận hành khai thác, quy trình bảo trì, tiêu chuẩn, quy chuẩn kỹ
74
+ thuật về quản lý, khai thác và bảo trì công trình đường cao tốc được cơ quan có
75
+ thẩm quyền ban hành.
76
+
77
+ 3. Quy trình vận hành khai thác, quy trình bảo trì công trình đường cao tốc được
78
+ lập phù hợp với các bộ phận công trình, thiết bị lắp đặt vào công trình, loại
79
+ công trình, cấp công trình và mục đích sử dụng công trình; được thể hiện rõ ràng,
80
+ công khai bằng tiếng Việt trên giấy, đĩa từ hoặc các phương tiện khác.'
81
+ - 'Triển khai hoạt động bảo vệ an ninh mạng trong cơ quan nhà nước, tổ chức chính
82
+ trị ở trung ương và địa phương
83
+
84
+
85
+ 1. N���i dung triển khai hoạt động bảo vệ an ninh mạng bao gồm:
86
+
87
+
88
+ a) Xây dựng, hoàn thiện quy định, quy chế sử dụng mạng máy tính nội bộ, mạng máy
89
+ tính có kết nối mạng Internet; phương án bảo đảm an ninh mạng đối với hệ thống
90
+ thông tin; phương án ứng phó, khắc phục sự cố an ninh mạng;
91
+
92
+
93
+ b) Ứng dụng, triển khai phương án, biện pháp, công nghệ bảo vệ an ninh mạng đối
94
+ với hệ thống thông tin và thông tin, tài liệu được lưu trữ, soạn thảo, truyền
95
+ đưa trên hệ thống thông tin thuộc phạm vi quản lý;
96
+
97
+
98
+ c) Tổ chức bồi dưỡng kiến thức về an ninh mạng cho cán bộ, công chức, viên chức,
99
+ người lao động; nâng cao năng lực bảo vệ an ninh mạng cho lực lượng bảo vệ an
100
+ ninh mạng;
101
+
102
+
103
+ d) Bảo vệ an ninh mạng trong hoạt động cung cấp dịch vụ công trên không gian mạng,
104
+ cung cấp, trao đổi, thu thập thông tin với cơ quan, tổ chức, cá nhân, chia sẻ
105
+ thông tin trong nội bộ và với cơ quan khác hoặc trong hoạt động khác theo quy
106
+ định của Chính phủ;
107
+
108
+
109
+ đ) Đầu tư, xây dựng hạ tầng cơ sở vật chất phù hợp với điều kiện bảo đảm triển
110
+ khai hoạt động bảo vệ an ninh mạng đối với hệ thống thông tin;
111
+
112
+
113
+ e) Kiểm tra an ninh mạng đối với hệ thống thông tin; phòng, chống hành vi vi phạm
114
+ pháp luật về an ninh mạng; ứng phó, khắc phục sự cố an ninh mạng. Người đứng đầu
115
+ cơ quan, tổ chức có trách nhiệm triển khai hoạt động bảo vệ an ninh mạng thuộc
116
+ quyền quản lý.'
117
+ - source_sentence: Người trồng cây thuốc phiện với số lượng 3.000 cây trở lên thì
118
+ bị phạt tù từ bao lâu đến bao lâu?
119
+ sentences:
120
+ - Doanh nghiệp được xem xét cấp Giấy phép hoạt động dịch vụ đưa người lao động đi
121
+ làm việc ở nước ngoài (sau đây gọi tắt là Giấy phép) là doanh nghiệp được thành
122
+ lập và hoạt động theo Luật Doanh nghiệp có 100% vốn điều lệ của các tổ chức, cá
123
+ nhân Việt Nam.
124
+ - 'Tội trồng cây thuốc phiện, cây côca, cây cần sa hoặc các loại cây khác có chứa
125
+ chất ma túy
126
+
127
+
128
+ 1. Người nào trồng cây thuốc phiện, cây côca, cây cần sa hoặc các loại cây khác
129
+ có chứa chất ma túy thuộc một trong các trường hợp sau đây, thì bị phạt tù từ
130
+ 06 tháng đến 03 năm:
131
+
132
+
133
+ a) Đã được giáo dục 02 lần và đã được tạo điều kiện ổn định cuộc sống;
134
+
135
+
136
+ b) Đã bị xử phạt vi phạm hành chính về hành vi này hoặc đã bị kết án về tội này,
137
+ chưa được xóa án tích mà còn vi phạm;
138
+
139
+
140
+ c) Với số lượng từ 500 cây đến dưới 3.000 cây. Phạm tội thuộc một trong các trường
141
+ hợp sau đây, thì bị phạt tù từ 03 năm đến 07 năm:
142
+
143
+
144
+ a) Có tổ chức;
145
+
146
+
147
+ b) Với số lượng 3.000 cây trở lên;
148
+
149
+
150
+ c) Tái phạm nguy hiểm.
151
+
152
+
153
+ 3. Người phạm tội còn có thể bị phạt tiền từ 5.000.000 đồng đến 50.000.000 đồng.
154
+
155
+
156
+ 4. Người nào phạm tội thuộc khoản 1 Điều này, nhưng đã tự nguyện phá bỏ, giao
157
+ nộp cho cơ quan chức năng có thẩm quyền trước khi thu hoạch, thì có thể được miễn
158
+ trách nhiệm hình sự.'
159
+ - Người chấp hành án và mọi công dân có quyền tố cáo với cơ quan, người có thẩm
160
+ quyền về hành vi vi phạm pháp luật của bất kỳ người có thẩm quyền nào trong thi
161
+ hành án hình sự mà gây thiệt hại hoặc đe dọa gây thiệt hại lợi ích của Nhà nước,
162
+ quyền, lợi ích hợp pháp của cơ quan, tổ chức, cá nhân.
163
+ - source_sentence: Việc ứng dụng mô hình thông tin công trình trong quản lý dự án
164
+ đầu tư xây dựng được quy định như thế nào?
165
+ sentences:
166
+ - '1. Thành viên hợp danh bị chấm dứt tư cách trong trường hợp sau đây:
167
+
168
+ a) Tự nguyện rút vốn khỏi công ty;
169
+
170
+ b) Chết, mất tích, bị hạn chế hoặc mất năng lực hành vi dân sự, có khó khăn trong
171
+ nhận thức, làm chủ hành vi;
172
+
173
+ c) Bị khai trừ khỏi công ty;
174
+
175
+ d) Chấp hành hình phạt tù hoặc bị Tòa án cấm hành nghề hoặc làm công việc nhất
176
+ định theo quy định của pháp luật;
177
+
178
+ đ) Trường hợp khác do Điều lệ công ty quy định.
179
+
180
+ 2. Thành viên hợp danh có quyền rút vốn khỏi công ty nếu được Hội đồng thành viên
181
+ chấp thuận. Trường hợp này, thành viên muốn rút vốn khỏi công ty phải th��ng báo
182
+ bằng văn bản yêu cầu rút vốn chậm nhất là 06 tháng trước ngày rút vốn; chỉ được
183
+ rút vốn vào thời điểm kết thúc năm tài chính và báo cáo tài chính của năm tài
184
+ chính đó đã được thông qua.
185
+
186
+ 3. Thành viên hợp danh bị khai trừ khỏi công ty trong trường hợp sau đây:
187
+
188
+ a) Không có khả năng góp vốn hoặc không góp vốn như đã cam kết sau khi công ty
189
+ đã có yêu cầu lần thứ hai;
190
+
191
+ b) Vi phạm quy định tại Điều 180 của Luật này;
192
+
193
+ c) Tiến hành công việc kinh doanh không trung thực, không cẩn trọng hoặc có hành
194
+ vi không thích hợp khác gây thiệt hại nghiêm trọng đến lợi ích của công ty và
195
+ thành viên khác;
196
+
197
+ d) Không thực hiện đúng nghĩa vụ của thành viên hợp danh.
198
+
199
+ 4. Trường hợp chấm dứt tư cách thành viên của thành viên bị hạn chế hoặc mất năng
200
+ lực hành vi dân sự, có khó khăn trong nhận thức, làm chủ hành vi thì phần vốn
201
+ góp của thành viên đó được hoàn trả công bằng và thỏa đáng.
202
+
203
+ 5. Trong thời hạn 02 năm kể từ ngày chấm dứt tư cách thành viên hợp danh theo
204
+ quy định tại các điểm a, c, d và đ khoản 1 Điều này thì người đó vẫn phải liên
205
+ đới chịu trách nhiệm bằng toàn bộ tài sản của mình đối với các khoản nợ của công
206
+ ty đã phát sinh trước ngày chấm dứt tư cách thành viên.
207
+
208
+ 6. Sau khi chấm dứt tư cách thành viên hợp danh, nếu tên của thành viên đó đã
209
+ được sử dụng thành một phần hoặc toàn bộ tên công ty thì người đó hoặc người thừa
210
+ kế, người đại diện theo pháp luật của họ có quyền yêu cầu công ty chấm dứt việc
211
+ sử dụng tên đó.'
212
+ - '1. Phạt cảnh cáo hoặc phạt tiền từ 100.000 đồng đến 500.000 đồng đối với hành
213
+ vi thông báo không đủ nội dung theo quy định sau khi được lựa chọn thực hiện đề
214
+ án, dự án điều tra cơ bản, tư vấn lập quy hoạch tài nguyên nước.
215
+
216
+ 2. Phạt tiền từ 3.000.000 đồng đến 5.000.000 đồng đối với hành vi không thông
217
+ báo đến cơ quan nhà nước có thẩm quyền theo quy định sau khi được lựa chọn thực
218
+ hiện đề án, dự án điều tra cơ bản, tư vấn lập quy hoạch tài nguyên nước.
219
+
220
+ 3. Phạt tiền từ 20.000.000 đồng đến 30.000.000 đồng đối với hành vi của người
221
+ phụ trách kỹ thuật của đề án, dự án điều tra cơ bản tài nguyên nước, tư vấn lập
222
+ quy hoạch tài nguyên nước cùng một thời điểm thực hiện từ 03 đề án, dự án điều
223
+ tra cơ bản tài nguyên nước hoặc từ 04 dự án lập quy hoạch tài nguyên nước trở
224
+ lên.
225
+
226
+ 4. Phạt tiền từ 30.000.000 đồng đến 40.000.000 đồng đối với hành vi kê khai không
227
+ trung thực thông tin trong hồ sơ năng lực lập đề án, báo cáo trong thực hiện đề
228
+ án, dự án điều tra cơ bản, tư vấn lập quy hoạch tài nguyên nước.
229
+
230
+ 5. Hình thức xử phạt bổ sung:
231
+
232
+ Đình chỉ hoạt động thực hiện đề án, dự án điều tra cơ bản, tư vấn lập quy hoạch
233
+ tài nguyên nước trong thời hạn từ 01 tháng đến 06 tháng đối với hành vi vi phạm
234
+ quy định tại khoản 4 Điều này.'
235
+ - '1. Khuyến khích áp dụng mô hình thông tin công trình (sau đây gọi tắt là BIM),
236
+ giải pháp công nghệ số trong hoạt động xây dựng và quản lý vận hành công trình.
237
+ Người quyết định đầu tư quyết định việc áp dụng BIM, giải pháp công nghệ số khi
238
+ quyết định dự án đầu tư xây dựng.
239
+
240
+ 2. Tệp tin BIM là một thành phần trong hồ sơ thiết kế xây dựng, hồ sơ hoàn thành
241
+ công trình đối với các dự án, công trình xây dựng áp dụng BIM. Nội dung và mức
242
+ độ chi tiết của mô hình thông tin công trình thực hiện theo thỏa thuận của các
243
+ bên có liên quan đến việc ứng dụng BIM trong hợp đồng xây dựng.
244
+
245
+ 3. Thủ tướng Chính phủ quy định lộ trình áp dụng BIM, giải pháp công nghệ số trong
246
+ hoạt động xây dựng.'
247
+ - source_sentence: Người sử dụng lao động có hành vi không thực hiện đối thoại khi
248
+ đại diện tập thể lao động yêu cầu thì bị xử lý ra sao?
249
+ sentences:
250
+ - '1. Phạt tiền từ 100.000 đồng đến 200.000 đồng đối với hành vi điều khiển xe không
251
+ đáp ứng yêu cầu về vệ sinh lưu thông trong đô thị.
252
+
253
+ 2. Phạt tiền từ 2.000.000 đồng ��ến 4.000.000 đồng đối với một trong các hành vi
254
+ vi phạm sau đây:
255
+
256
+ a) Để dầu nhờn, hóa chất rơi vãi xuống đường bộ;
257
+
258
+ b) Chở hàng rời, chất thải, vật liệu xây dựng dễ rơi vãi mà không có mui, bạt
259
+ che đậy hoặc có mui, bạt che đậy nhưng vẫn để rơi vãi; chở hàng hoặc chất thải
260
+ để nước chảy xuống mặt đường gây mất an toàn giao thông và vệ sinh môi trường;
261
+
262
+ c) Lôi kéo bùn, đất, cát, nguyên liệu, vật liệu hoặc chất phế thải khác ra đường
263
+ bộ gây mất an toàn giao thông và vệ sinh môi trường.
264
+
265
+ 3. Phạt tiền từ 4.000.000 đồng đến 6.000.000 đồng đối với người điều khiển xe
266
+ đổ trái phép rác, đất, cát, đá, vật liệu, chất phế thải trong phạm vi đất dành
267
+ cho đường bộ ở đoạn đường ngoài đô thị.
268
+
269
+ 4. Phạt tiền từ 10.000.000 đồng đến 15.000.000 đồng đối với người điều khiển xe
270
+ thực hiện hành vi đổ trái phép rác, đất, cát, đá, vật liệu, chất phế thải ra đường
271
+ phố.
272
+
273
+ 5. Ngoài việc bị phạt tiền, người điều khiển phương tiện thực hiện hành vi vi
274
+ phạm quy định tại khoản 3, khoản 4 Điều này còn bị áp dụng hình thức xử phạt bổ
275
+ sung tước quyền sử dụng Giấy phép lái xe từ 01 tháng đến 03 tháng.
276
+
277
+ 6. Ngoài việc bị áp dụng hình thức xử phạt, người điều khiển phương tiện thực
278
+ hiện hành vi vi phạm quy định tại khoản 2, khoản 3, khoản 4 Điều này còn bị áp
279
+ dụng các biện pháp khắc phục hậu quả: Buộc phải thu dọn rác, chất phế thải, vật
280
+ liệu, hàng hóa và khôi phục lại tình trạng ban đầu đã bị thay đổi do vi phạm hành
281
+ chính gây ra; nếu gây ô nhiễm môi trường phải thực hiện các biện pháp khắc phục
282
+ tình trạng ô nhiễm môi trường do vi phạm hành chính gây ra.'
283
+ - '1. Phạt tiền từ 500.000 đồng đến 1.000.000 đồng đối với người sử dụng lao động
284
+ có một trong các hành vi sau đây:
285
+
286
+ a) Không thực hiện quy chế dân chủ ở cơ sở theo quy định pháp luật;
287
+
288
+ b) Không bố trí địa điểm và bảo đảm các điều kiện vật chất khác cho việc đối thoại
289
+ tại nơi làm việc.
290
+
291
+ 2. Phạt tiền từ 2.000.000 đồng đến 5.000.000 đồng đối với người sử dụng lao động
292
+ có hành vi không thực hiện đối thoại khi đại diện tập thể lao động yêu cầu.'
293
+ - Công ty quản lý quỹ đầu tư chứng khoán phải báo cáo Ủy ban Chứng khoán Nhà nước
294
+ định kỳ và bất thường về danh mục đầu tư, hoạt động đầu tư, tình hình tài chính
295
+ của quỹ đầu tư chứng khoán.
296
+ - source_sentence: Chế độ giáo dục phạm nhân dưới 18 tuổi từ năm 2020 được quy định
297
+ như thế nào?
298
+ sentences:
299
+ - '1. Phạm nhân là người dưới 18 tuổi được giam giữ theo chế độ riêng phù hợp với
300
+ sức khỏe, giới tính và đặc điểm nhân thân.
301
+
302
+ 2. Trại giam có trách nhiệm giáo dục phạm nhân là người dưới 18 tuổi về văn hóa,
303
+ pháp luật và dạy nghề phù hợp với độ tuổi, học vấn, giới tính và sức khỏe, chuẩn
304
+ bị điều kiện để họ hòa nhập cộng đồng sau khi chấp hành xong án phạt tù. Thực
305
+ hiện phổ cập giáo dục tiểu học và giáo dục trung học cơ sở. Giáo dục tiểu học
306
+ là bắt buộc đối với phạm nhân chưa học xong chương trình tiểu học.'
307
+ - '1. Sĩ quan thôi phục vụ tại ngũ không đủ điều kiện để nghỉ hưu hoặc không chuyển
308
+ ngành được thì phục viên về địa phương và được hưởng các quyền lợi như sau:
309
+
310
+ a) Được hưởng trợ cấp tạo việc làm bằng 06 tháng tiền lương tối thiểu chung theo
311
+ quy định của Chính phủ; được ưu tiên học nghề hoặc giới thiệu việc làm tại các
312
+ tổ chức giới thiệu việc làm của các Bộ, ngành, đoàn thể, địa phương và các tổ
313
+ chức kinh tế - xã hội khác;
314
+
315
+ b) Được hưởng trợ cấp phục viên một lần, cứ mỗi năm công tác được trợ cấp bằng
316
+ 01 tháng tiền lương;
317
+
318
+ c) Được hưởng chế độ bảo hiểm xã hội và các chế độ khác theo quy định hiện hành
319
+ của pháp luật.
320
+
321
+ 2. Sĩ quan đã phục viên về địa phương trong thời gian không quá một năm, kể từ
322
+ ngày quyết định phục viên có hiệu lực, nếu được tuyển dụng vào các cơ quan, đơn
323
+ vị quy định tại khoản 1 Điều 3 Nghị định này thì được thực hiện chế độ chuyển
324
+ ngành. Khi thực hiện chế độ chuyển ngành thì phải hoàn trả khoản trợ cấp phục
325
+ viên một lần theo quy định tại điểm b khoản 1 Điều này và trợ cấp bảo hiểm xã
326
+ hội một lần đã nhận. Cơ quan, đơn vị quân đội nhân dân ra quyết định chuyển ngành
327
+ có trách nhiệm thu lại số tiền trợ cấp phục viên và trợ cấp bảo hiểm xã hội đã
328
+ nhận.
329
+
330
+ 3. Sĩ quan đã phục viên về địa phương trong thời gian không quá một năm, kể từ
331
+ ngày quyết định phục viên có hiệu lực, nếu được tuyển dụng vào làm việc tại các
332
+ doanh nghiệp, cơ quan, đơn vị không hưởng lương từ ngân sách nhà nước, nếu muốn
333
+ tính nối thời gian đóng bảo hiểm xã hội thì phải hoàn trả quỹ bảo hiểm xã hội
334
+ khoản trợ cấp bảo hiểm xã hội đã nhận.'
335
+ - '1. Công tác nạo vét duy tu luồng hàng hải công cộng và luồng đường thủy nội địa
336
+ sử dụng nguồn ngân sách nhà nước do Bộ Giao thông vận tải, Ủy ban nhân dân cấp
337
+ tỉnh quản lý được nhà nước bảo đảm, bố trí từ nguồn vốn ngân sách hàng năm để
338
+ thực hiện.
339
+
340
+ 2. Không thực hiện việc bảo hành và mua bảo hiểm thi công công trình nạo vét duy
341
+ tu luồng hàng hải công cộng và luồng đường thủy nội địa.'
342
+ model-index:
343
+ - name: SentenceTransformer based on intfloat/multilingual-e5-large
344
+ results:
345
+ - task:
346
+ type: binary-classification
347
+ name: Binary Classification
348
+ dataset:
349
+ name: Unknown
350
+ type: unknown
351
+ metrics:
352
+ - type: cosine_accuracy
353
+ value: 0.7745901639344263
354
+ name: Cosine Accuracy
355
+ - type: cosine_accuracy_threshold
356
+ value: 0.23831653594970703
357
+ name: Cosine Accuracy Threshold
358
+ - type: cosine_f1
359
+ value: 0.7913669064748201
360
+ name: Cosine F1
361
+ - type: cosine_f1_threshold
362
+ value: 0.17689600586891174
363
+ name: Cosine F1 Threshold
364
+ - type: cosine_precision
365
+ value: 0.7236842105263158
366
+ name: Cosine Precision
367
+ - type: cosine_recall
368
+ value: 0.873015873015873
369
+ name: Cosine Recall
370
+ - type: cosine_ap
371
+ value: 0.8358268838964557
372
+ name: Cosine Ap
373
+ - type: cosine_mcc
374
+ value: 0.5331769804781525
375
+ name: Cosine Mcc
376
+ ---
377
+
378
+ # SentenceTransformer based on intfloat/multilingual-e5-large
379
+
380
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
381
+
382
+ ## Model Details
383
+
384
+ ### Model Description
385
+ - **Model Type:** Sentence Transformer
386
+ - **Base model:** [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) <!-- at revision 0dc5580a448e4284468b8909bae50fa925907bc5 -->
387
+ - **Maximum Sequence Length:** 512 tokens
388
+ - **Output Dimensionality:** 1024 dimensions
389
+ - **Similarity Function:** Cosine Similarity
390
+ <!-- - **Training Dataset:** Unknown -->
391
+ <!-- - **Language:** Unknown -->
392
+ <!-- - **License:** Unknown -->
393
+
394
+ ### Model Sources
395
+
396
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
397
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
398
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
399
+
400
+ ### Full Model Architecture
401
+
402
+ ```
403
+ SentenceTransformer(
404
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
405
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
406
+ (2): Normalize()
407
+ )
408
+ ```
409
+
410
+ ## Usage
411
+
412
+ ### Direct Usage (Sentence Transformers)
413
+
414
+ First install the Sentence Transformers library:
415
+
416
+ ```bash
417
+ pip install -U sentence-transformers
418
+ ```
419
+
420
+ Then you can load this model and run inference.
421
+ ```python
422
+ from sentence_transformers import SentenceTransformer
423
+
424
+ # Download from the 🤗 Hub
425
+ model = SentenceTransformer("ictumuk/mul_legal_final")
426
+ # Run inference
427
+ sentences = [
428
+ 'Chế độ giáo dục phạm nhân dưới 18 tuổi từ năm 2020 được quy định như thế nào?',
429
+ '1. Phạm nhân là người dưới 18 tuổi được giam giữ theo chế độ riêng phù hợp với sức khỏe, giới tính và đặc điểm nhân thân.\n2. Trại giam có trách nhiệm giáo dục phạm nhân là người dưới 18 tuổi về văn hóa, pháp luật và dạy nghề phù hợp với độ tuổi, học vấn, giới tính và sức khỏe, chuẩn bị điều kiện để họ hòa nhập cộng đồng sau khi chấp hành xong án phạt tù. Thực hiện phổ cập giáo dục tiểu học và giáo dục trung học cơ sở. Giáo dục tiểu học là bắt buộc đối với phạm nhân chưa học xong chương trình tiểu học.',
430
+ '1. Công tác nạo vét duy tu luồng hàng hải công cộng và luồng đường thủy nội địa sử dụng nguồn ngân sách nhà nước do Bộ Giao thông vận tải, Ủy ban nhân dân cấp tỉnh quản lý được nhà nước bảo đảm, bố trí từ nguồn vốn ngân sách hàng năm để thực hiện.\n2. Không thực hiện việc bảo hành và mua bảo hiểm thi công công trình nạo vét duy tu luồng hàng hải công cộng và luồng đường thủy nội địa.',
431
+ ]
432
+ embeddings = model.encode(sentences)
433
+ print(embeddings.shape)
434
+ # [3, 1024]
435
+
436
+ # Get the similarity scores for the embeddings
437
+ similarities = model.similarity(embeddings, embeddings)
438
+ print(similarities.shape)
439
+ # [3, 3]
440
+ ```
441
+
442
+ <!--
443
+ ### Direct Usage (Transformers)
444
+
445
+ <details><summary>Click to see the direct usage in Transformers</summary>
446
+
447
+ </details>
448
+ -->
449
+
450
+ <!--
451
+ ### Downstream Usage (Sentence Transformers)
452
+
453
+ You can finetune this model on your own dataset.
454
+
455
+ <details><summary>Click to expand</summary>
456
+
457
+ </details>
458
+ -->
459
+
460
+ <!--
461
+ ### Out-of-Scope Use
462
+
463
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
464
+ -->
465
+
466
+ ## Evaluation
467
+
468
+ ### Metrics
469
+
470
+ #### Binary Classification
471
+
472
+ * Evaluated with [<code>BinaryClassificationEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.BinaryClassificationEvaluator)
473
+
474
+ | Metric | Value |
475
+ |:--------------------------|:-----------|
476
+ | cosine_accuracy | 0.7746 |
477
+ | cosine_accuracy_threshold | 0.2383 |
478
+ | cosine_f1 | 0.7914 |
479
+ | cosine_f1_threshold | 0.1769 |
480
+ | cosine_precision | 0.7237 |
481
+ | cosine_recall | 0.873 |
482
+ | **cosine_ap** | **0.8358** |
483
+ | cosine_mcc | 0.5332 |
484
+
485
+ <!--
486
+ ## Bias, Risks and Limitations
487
+
488
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
489
+ -->
490
+
491
+ <!--
492
+ ### Recommendations
493
+
494
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
495
+ -->
496
+
497
+ ## Training Details
498
+
499
+ ### Training Dataset
500
+
501
+ #### Unnamed Dataset
502
+
503
+ * Size: 4,391 training samples
504
+ * Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>label</code>
505
+ * Approximate statistics based on the first 1000 samples:
506
+ | | sentence1 | sentence2 | label |
507
+ |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------|
508
+ | type | string | string | int |
509
+ | details | <ul><li>min: 7 tokens</li><li>mean: 24.23 tokens</li><li>max: 101 tokens</li></ul> | <ul><li>min: 19 tokens</li><li>mean: 242.45 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>0: ~48.00%</li><li>1: ~52.00%</li></ul> |
510
+ * Samples:
511
+ | sentence1 | sentence2 | label |
512
+ |:----------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
513
+ | <code>Gửi hồ sơ giả mạo đến kho bạc nhà nước để chi cho chương trình mục tiêu quốc gia phạt bao nhiêu?</code> | <code>1. Phạt tiền từ 10.000.000 đồng đến 15.000.000 đồng đối với hành vi lập hồ sơ, chứng từ giả mạo gửi Kho bạc Nhà nước để thanh toán, chi trả các khoản chi thường xuyên, chi sự nghiệp có tính chất thường xuyên, chi chương trình mục tiêu quốc gia, chương trình mục tiêu sử dụng kinh phí sự nghiệp (loại trừ các khoản chi thực hiện các công trình sửa chữa, bảo trì, cải tạo, nâng cấp, mở rộng cơ sở vật chất từ nguồn kinh phí chi thường xuyên ngân sách nhà nước và nguồn phí được để lại theo chế độ quy định để chi thường xuyên có tổng mức đầu tư trên 500.000.000 đồng).<br>2. Phạt tiền từ 30.000.000 đồng đến 50.000.000 đồng đối với hành vi lập hồ sơ, chứng từ giả mạo gửi Kho bạc Nhà nước để thanh toán vốn đầu tư thuộc nguồn vốn ngân sách nhà nước và nguồn vốn đầu tư từ ngân sách nhà nước thực hiện các chương trình mục tiêu hoặc chi thực hiện các công trình sửa chữa, bảo trì, cải tạo, nâng cấp, mở rộng cơ sở vật chất từ nguồn kinh phí chi thường xuyên ngân sách nhà nước và nguồn phí được để lại theo...</code> | <code>0</code> |
514
+ | <code>Điều kiện tham gia hoạt động điều tra, khảo sát, rà phá bom mìn vật nổ sau chiến tranh theo quy định hiện hành</code> | <code>1. Việc quản lý chi phí dự án được thực hiện theo quy định của pháp luật về quản lý chi phí đầu tư xây dựng công trình và theo thỏa thuận với nhà tài trợ nước ngoài.<br>2. Chi phí nhân công trong hoạt động điều tra, khảo sát, rà phá bom mìn vật nổ sau chiến tranh thực hiện như sau:<br>a) Chi phí tiền công và các khoản phụ cấp đối với các đối tượng không hưởng lương từ ngân sách nhà nước khi tham gia hoạt động điều tra, khảo sát, rà phá bom mìn vật nổ sau chiến tranh;<br>b) Chi phí bồi dưỡng đối với các đối tượng hưởng lương từ ngân sách nhà nước khi tham gia hoạt động điều tra, khảo sát, rà phá bom mìn vật nổ sau chiến tranh theo quyết định của Thủ tướng Chính phủ.</code> | <code>0</code> |
515
+ | <code>Hiệu lực pháp lý của di chúc miệng khi người lập di chúc phục hồi sức khỏe?</code> | <code>1. Trường hợp tính mạng một người bị cái chết đe dọa và không thể lập di chúc bằng văn bản thì có thể lập di chúc miệng.<br>2. Sau 03 tháng, kể từ thời điểm di chúc miệng mà người lập di chúc còn sống, minh mẫn, sáng suốt thì di chúc miệng mặc nhiên bị hủy bỏ.</code> | <code>1</code> |
516
+ * Loss: [<code>CoSENTLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
517
+ ```json
518
+ {
519
+ "scale": 20.0,
520
+ "similarity_fct": "pairwise_cos_sim"
521
+ }
522
+ ```
523
+
524
+ ### Training Hyperparameters
525
+ #### Non-Default Hyperparameters
526
+
527
+ - `eval_strategy`: steps
528
+ - `per_device_train_batch_size`: 4
529
+ - `per_device_eval_batch_size`: 4
530
+ - `learning_rate`: 2e-05
531
+ - `num_train_epochs`: 4
532
+ - `warmup_ratio`: 0.1
533
+ - `fp16`: True
534
+ - `batch_sampler`: no_duplicates
535
+
536
+ #### All Hyperparameters
537
+ <details><summary>Click to expand</summary>
538
+
539
+ - `overwrite_output_dir`: False
540
+ - `do_predict`: False
541
+ - `eval_strategy`: steps
542
+ - `prediction_loss_only`: True
543
+ - `per_device_train_batch_size`: 4
544
+ - `per_device_eval_batch_size`: 4
545
+ - `per_gpu_train_batch_size`: None
546
+ - `per_gpu_eval_batch_size`: None
547
+ - `gradient_accumulation_steps`: 1
548
+ - `eval_accumulation_steps`: None
549
+ - `learning_rate`: 2e-05
550
+ - `weight_decay`: 0.0
551
+ - `adam_beta1`: 0.9
552
+ - `adam_beta2`: 0.999
553
+ - `adam_epsilon`: 1e-08
554
+ - `max_grad_norm`: 1.0
555
+ - `num_train_epochs`: 4
556
+ - `max_steps`: -1
557
+ - `lr_scheduler_type`: linear
558
+ - `lr_scheduler_kwargs`: {}
559
+ - `warmup_ratio`: 0.1
560
+ - `warmup_steps`: 0
561
+ - `log_level`: passive
562
+ - `log_level_replica`: warning
563
+ - `log_on_each_node`: True
564
+ - `logging_nan_inf_filter`: True
565
+ - `save_safetensors`: True
566
+ - `save_on_each_node`: False
567
+ - `save_only_model`: False
568
+ - `restore_callback_states_from_checkpoint`: False
569
+ - `no_cuda`: False
570
+ - `use_cpu`: False
571
+ - `use_mps_device`: False
572
+ - `seed`: 42
573
+ - `data_seed`: None
574
+ - `jit_mode_eval`: False
575
+ - `use_ipex`: False
576
+ - `bf16`: False
577
+ - `fp16`: True
578
+ - `fp16_opt_level`: O1
579
+ - `half_precision_backend`: auto
580
+ - `bf16_full_eval`: False
581
+ - `fp16_full_eval`: False
582
+ - `tf32`: None
583
+ - `local_rank`: 0
584
+ - `ddp_backend`: None
585
+ - `tpu_num_cores`: None
586
+ - `tpu_metrics_debug`: False
587
+ - `debug`: []
588
+ - `dataloader_drop_last`: False
589
+ - `dataloader_num_workers`: 0
590
+ - `dataloader_prefetch_factor`: None
591
+ - `past_index`: -1
592
+ - `disable_tqdm`: False
593
+ - `remove_unused_columns`: True
594
+ - `label_names`: None
595
+ - `load_best_model_at_end`: False
596
+ - `ignore_data_skip`: False
597
+ - `fsdp`: []
598
+ - `fsdp_min_num_params`: 0
599
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
600
+ - `fsdp_transformer_layer_cls_to_wrap`: None
601
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
602
+ - `deepspeed`: None
603
+ - `label_smoothing_factor`: 0.0
604
+ - `optim`: adamw_torch
605
+ - `optim_args`: None
606
+ - `adafactor`: False
607
+ - `group_by_length`: False
608
+ - `length_column_name`: length
609
+ - `ddp_find_unused_parameters`: None
610
+ - `ddp_bucket_cap_mb`: None
611
+ - `ddp_broadcast_buffers`: False
612
+ - `dataloader_pin_memory`: True
613
+ - `dataloader_persistent_workers`: False
614
+ - `skip_memory_metrics`: True
615
+ - `use_legacy_prediction_loop`: False
616
+ - `push_to_hub`: False
617
+ - `resume_from_checkpoint`: None
618
+ - `hub_model_id`: None
619
+ - `hub_strategy`: every_save
620
+ - `hub_private_repo`: False
621
+ - `hub_always_push`: False
622
+ - `gradient_checkpointing`: False
623
+ - `gradient_checkpointing_kwargs`: None
624
+ - `include_inputs_for_metrics`: False
625
+ - `eval_do_concat_batches`: True
626
+ - `fp16_backend`: auto
627
+ - `push_to_hub_model_id`: None
628
+ - `push_to_hub_organization`: None
629
+ - `mp_parameters`:
630
+ - `auto_find_batch_size`: False
631
+ - `full_determinism`: False
632
+ - `torchdynamo`: None
633
+ - `ray_scope`: last
634
+ - `ddp_timeout`: 1800
635
+ - `torch_compile`: False
636
+ - `torch_compile_backend`: None
637
+ - `torch_compile_mode`: None
638
+ - `dispatch_batches`: None
639
+ - `split_batches`: None
640
+ - `include_tokens_per_second`: False
641
+ - `include_num_input_tokens_seen`: False
642
+ - `neftune_noise_alpha`: None
643
+ - `optim_target_modules`: None
644
+ - `batch_eval_metrics`: False
645
+ - `prompts`: None
646
+ - `batch_sampler`: no_duplicates
647
+ - `multi_dataset_batch_sampler`: proportional
648
+
649
+ </details>
650
+
651
+ ### Training Logs
652
+ | Epoch | Step | Training Loss | cosine_ap |
653
+ |:------:|:----:|:-------------:|:---------:|
654
+ | -1 | -1 | - | 0.7745 |
655
+ | 0.1821 | 200 | 0.9978 | - |
656
+ | 0.3643 | 400 | 1.0744 | 0.8190 |
657
+ | 0.5464 | 600 | 1.1956 | - |
658
+ | 0.7286 | 800 | 1.4955 | 0.7235 |
659
+ | 0.9107 | 1000 | 1.2426 | - |
660
+ | 1.0929 | 1200 | 1.2702 | 0.7977 |
661
+ | 1.2750 | 1400 | 1.2558 | - |
662
+ | 1.4572 | 1600 | 1.056 | 0.7980 |
663
+ | 1.6393 | 1800 | 1.2258 | - |
664
+ | 1.8215 | 2000 | 1.2263 | 0.8113 |
665
+ | 2.0036 | 2200 | 1.4364 | - |
666
+ | 2.1858 | 2400 | 0.6514 | 0.8213 |
667
+ | 2.3679 | 2600 | 0.6806 | - |
668
+ | 2.5501 | 2800 | 0.7986 | 0.8362 |
669
+ | 2.7322 | 3000 | 0.759 | - |
670
+ | 2.9144 | 3200 | 0.7518 | 0.8382 |
671
+ | 3.0965 | 3400 | 0.4201 | - |
672
+ | 3.2787 | 3600 | 0.4148 | 0.8318 |
673
+ | 3.4608 | 3800 | 0.3349 | - |
674
+ | 3.6430 | 4000 | 0.3162 | 0.8415 |
675
+ | 3.8251 | 4200 | 0.3247 | - |
676
+ | -1 | -1 | - | 0.8358 |
677
+
678
+
679
+ ### Framework Versions
680
+ - Python: 3.10.14
681
+ - Sentence Transformers: 3.4.1
682
+ - Transformers: 4.41.2
683
+ - PyTorch: 2.1.2+cu121
684
+ - Accelerate: 0.34.2
685
+ - Datasets: 2.19.1
686
+ - Tokenizers: 0.19.1
687
+
688
+ ## Citation
689
+
690
+ ### BibTeX
691
+
692
+ #### Sentence Transformers
693
+ ```bibtex
694
+ @inproceedings{reimers-2019-sentence-bert,
695
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
696
+ author = "Reimers, Nils and Gurevych, Iryna",
697
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
698
+ month = "11",
699
+ year = "2019",
700
+ publisher = "Association for Computational Linguistics",
701
+ url = "https://arxiv.org/abs/1908.10084",
702
+ }
703
+ ```
704
+
705
+ #### CoSENTLoss
706
+ ```bibtex
707
+ @online{kexuefm-8847,
708
+ title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT},
709
+ author={Su Jianlin},
710
+ year={2022},
711
+ month={Jan},
712
+ url={https://kexue.fm/archives/8847},
713
+ }
714
+ ```
715
+
716
+ <!--
717
+ ## Glossary
718
+
719
+ *Clearly define terms in order to be accessible across audiences.*
720
+ -->
721
+
722
+ <!--
723
+ ## Model Card Authors
724
+
725
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
726
+ -->
727
+
728
+ <!--
729
+ ## Model Card Contact
730
+
731
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
732
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "intfloat/multilingual-e5-large",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 514,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.41.2",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.4.1",
4
+ "transformers": "4.41.2",
5
+ "pytorch": "2.1.2+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d70e481089f32b0f8dd491f83ef108034e16408c7ec7ce82972914db17f4fe64
3
+ size 2239607176
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,54 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "model_max_length": 512,
50
+ "pad_token": "<pad>",
51
+ "sep_token": "</s>",
52
+ "tokenizer_class": "XLMRobertaTokenizer",
53
+ "unk_token": "<unk>"
54
+ }