|
--- |
|
base_model: keepitreal/vietnamese-sbert |
|
library_name: sentence-transformers |
|
metrics: |
|
- cosine_accuracy |
|
- cosine_accuracy_threshold |
|
- cosine_f1 |
|
- cosine_f1_threshold |
|
- cosine_precision |
|
- cosine_recall |
|
- cosine_ap |
|
- cosine_mcc |
|
pipeline_tag: sentence-similarity |
|
tags: |
|
- sentence-transformers |
|
- sentence-similarity |
|
- feature-extraction |
|
- generated_from_trainer |
|
- dataset_size:4391 |
|
- loss:CoSENTLoss |
|
widget: |
|
- source_sentence: Đơn vị nào có trách nhiệm xây dựng và triển khai hoạt động phổ |
|
biến kiến thức, nâng cao nhận thức về an ninh mạng cho cơ quan, tổ chức, cá nhân |
|
của tỉnh? |
|
sentences: |
|
- 'Phòng, chống khủng bố mạng |
|
|
|
|
|
1. Cơ quan nhà nước có thẩm quyền có trách nhiệm áp dụng biện pháp theo quy định |
|
của Luật này, Điều 29 của Luật An toàn thông tin mạng và pháp luật về phòng, chống |
|
khủng bố để xử lý khủng bố mạng. Chủ quản hệ thống thông tin thường xuyên rà soát, |
|
kiểm tra hệ thống thông tin thuộc phạm vi quản lý nhằm loại trừ nguy cơ khủng |
|
bố mạng. |
|
|
|
|
|
3. Khi phát hiện dấu hiệu, hành vi khủng bố mạng, cơ quan, tổ chức, cá nhân phải |
|
kịp thời báo cho lực lượng bảo vệ an ninh mạng. Cơ quan tiếp nhận tin báo có trách |
|
nhiệm tiếp nhận đầy đủ tin báo về khủng bố mạng và kịp thời thông báo cho lực |
|
lượng chuyên trách bảo vệ an ninh mạng. |
|
|
|
|
|
4. Bộ Công an chủ trì, phối hợp với Bộ, ngành có liên quan triển khai công tác |
|
phòng, chống khủng bố mạng, áp dụng biện pháp vô hiệu hóa nguồn khủng bố mạng, |
|
xử lý khủng bố mạng, hạn chế đến mức thấp nhất hậu quả xảy ra đối với hệ thống |
|
thông tin, trừ trường hợp quy định tại khoản 5 và khoản 6 Điều này. |
|
|
|
|
|
5. Bộ Quốc phòng chủ trì, phối hợp với Bộ, ngành có liên quan triển khai công |
|
tác phòng, chống khủng bố mạng, áp dụng biện pháp xử lý khủng bố mạng xảy ra đối |
|
với hệ thống thông tin quân sự. |
|
|
|
|
|
6. Ban Cơ yếu Chính phủ chủ trì, phối hợp với Bộ, ngành có liên quan triển khai |
|
công tác phòng, chống khủng bố mạng, áp dụng biện pháp xử lý khủng bố mạng xảy |
|
ra đối với hệ thống thông tin cơ yếu thuộc Ban Cơ yếu Chính phủ.' |
|
- '1. Công trình đường cao tốc khi đưa vào khai thác, sử dụng phải được quản lý, |
|
khai thác và bảo trì theo quy định tại Luật Giao thông đường bộ, Nghị định số |
|
32/2014/NĐ-CP ngày 22 tháng 4 năm 2014 của Chính phủ về quản lý, khai thác và |
|
bảo trì công trình đường cao tốc (sau đây gọi tắt là Nghị định số 32/2014/NĐ-CP), |
|
Nghị định số 11/2010/NĐ-CP ngày 24 tháng 02 năm 2010 của Chính phủ quy định về |
|
quản lý và bảo vệ kết cấu hạ tầng giao thông đường bộ (sau đây gọi tắt là Nghị |
|
định số 11/2010/NĐ-CP), Nghị định số 100/2013/NĐ-CP ngày 03 tháng 9 năm 2013 của |
|
Chính phủ về sửa đổi, bổ sung một số điều của Nghị định số 11/2010/NĐ-CP ngày |
|
24 tháng 02 năm 2010 (sau đây gọi tắt là Nghị định số 100/2013/NĐ-CP), Nghị định |
|
số 114/2010/NĐ-CP ngày 06 tháng 12 năm 2010 của Chính phủ về bảo trì công trình |
|
xây dựng (sau đây gọi tắt là Nghị định số 114/2010/NĐ-CP), Nghị định số 10/2013/NĐ-CP |
|
ngày 11 tháng 01 năm 2013 của Chính phủ quy định việc quản lý, sử dụng và khai |
|
thác tài sản kết cấu hạ tầng giao thông đường bộ (sau đây gọi tắt là Nghị định |
|
số 10/2013/NĐ-CP), các văn bản quy phạm pháp luật có liên quan và quy định tại |
|
Thông tư này. |
|
|
|
2. Việc quản lý, khai thác và bảo trì công trình đường cao tốc phải thực hiện |
|
theo quy trình vận hành khai thác, quy trình bảo trì, tiêu chuẩn, quy chuẩn kỹ |
|
thuật về quản lý, khai thác và bảo trì công trình đường cao tốc được cơ quan có |
|
thẩm quyền ban hành. |
|
|
|
3. Quy trình vận hành khai thác, quy trình bảo trì công trình đường cao tốc được |
|
lập phù hợp với các bộ phận công trình, thiết bị lắp đặt vào công trình, loại |
|
công trình, cấp công trình và mục đích sử dụng công trình; được thể hiện rõ ràng, |
|
công khai bằng tiếng Việt trên giấy, đĩa từ hoặc các phương tiện khác.' |
|
- 'Triển khai hoạt động bảo vệ an ninh mạng trong cơ quan nhà nước, tổ chức chính |
|
trị ở trung ương và địa phương |
|
|
|
|
|
1. Nội dung triển khai hoạt động bảo vệ an ninh mạng bao gồm: |
|
|
|
|
|
a) Xây dựng, hoàn thiện quy định, quy chế sử dụng mạng máy tính nội bộ, mạng máy |
|
tính có kết nối mạng Internet; phương án bảo đảm an ninh mạng đối với hệ thống |
|
thông tin; phương án ứng phó, khắc phục sự cố an ninh mạng; |
|
|
|
|
|
b) Ứng dụng, triển khai phương án, biện pháp, công nghệ bảo vệ an ninh mạng đối |
|
với hệ thống thông tin và thông tin, tài liệu được lưu trữ, soạn thảo, truyền |
|
đưa trên hệ thống thông tin thuộc phạm vi quản lý; |
|
|
|
|
|
c) Tổ chức bồi dưỡng kiến thức về an ninh mạng cho cán bộ, công chức, viên chức, |
|
người lao động; nâng cao năng lực bảo vệ an ninh mạng cho lực lượng bảo vệ an |
|
ninh mạng; |
|
|
|
|
|
d) Bảo vệ an ninh mạng trong hoạt động cung cấp dịch vụ công trên không gian mạng, |
|
cung cấp, trao đổi, thu thập thông tin với cơ quan, tổ chức, cá nhân, chia sẻ |
|
thông tin trong nội bộ và với cơ quan khác hoặc trong hoạt động khác theo quy |
|
định của Chính phủ; |
|
|
|
|
|
đ) Đầu tư, xây dựng hạ tầng cơ sở vật chất phù hợp với điều kiện bảo đảm triển |
|
khai hoạt động bảo vệ an ninh mạng đối với hệ thống thông tin; |
|
|
|
|
|
e) Kiểm tra an ninh mạng đối với hệ thống thông tin; phòng, chống hành vi vi phạm |
|
pháp luật về an ninh mạng; ứng phó, khắc phục sự cố an ninh mạng. Người đứng đầu |
|
cơ quan, tổ chức có trách nhiệm triển khai hoạt động bảo vệ an ninh mạng thuộc |
|
quyền quản lý.' |
|
- source_sentence: Người trồng cây thuốc phiện với số lượng 3.000 cây trở lên thì |
|
bị phạt tù từ bao lâu đến bao lâu? |
|
sentences: |
|
- Doanh nghiệp được xem xét cấp Giấy phép hoạt động dịch vụ đưa người lao động đi |
|
làm việc ở nước ngoài (sau đây gọi tắt là Giấy phép) là doanh nghiệp được thành |
|
lập và hoạt động theo Luật Doanh nghiệp có 100% vốn điều lệ của các tổ chức, cá |
|
nhân Việt Nam. |
|
- 'Tội trồng cây thuốc phiện, cây côca, cây cần sa hoặc các loại cây khác có chứa |
|
chất ma túy |
|
|
|
|
|
1. Người nào trồng cây thuốc phiện, cây côca, cây cần sa hoặc các loại cây khác |
|
có chứa chất ma túy thuộc một trong các trường hợp sau đây, thì bị phạt tù từ |
|
06 tháng đến 03 năm: |
|
|
|
|
|
a) Đã được giáo dục 02 lần và đã được tạo điều kiện ổn định cuộc sống; |
|
|
|
|
|
b) Đã bị xử phạt vi phạm hành chính về hành vi này hoặc đã bị kết án về tội này, |
|
chưa được xóa án tích mà còn vi phạm; |
|
|
|
|
|
c) Với số lượng từ 500 cây đến dưới 3.000 cây. Phạm tội thuộc một trong các trường |
|
hợp sau đây, thì bị phạt tù từ 03 năm đến 07 năm: |
|
|
|
|
|
a) Có tổ chức; |
|
|
|
|
|
b) Với số lượng 3.000 cây trở lên; |
|
|
|
|
|
c) Tái phạm nguy hiểm. |
|
|
|
|
|
3. Người phạm tội còn có thể bị phạt tiền từ 5.000.000 đồng đến 50.000.000 đồng. |
|
|
|
|
|
4. Người nào phạm tội thuộc khoản 1 Điều này, nhưng đã tự nguyện phá bỏ, giao |
|
nộp cho cơ quan chức năng có thẩm quyền trước khi thu hoạch, thì có thể được miễn |
|
trách nhiệm hình sự.' |
|
- Người chấp hành án và mọi công dân có quyền tố cáo với cơ quan, người có thẩm |
|
quyền về hành vi vi phạm pháp luật của bất kỳ người có thẩm quyền nào trong thi |
|
hành án hình sự mà gây thiệt hại hoặc đe dọa gây thiệt hại lợi ích của Nhà nước, |
|
quyền, lợi ích hợp pháp của cơ quan, tổ chức, cá nhân. |
|
- source_sentence: Việc ứng dụng mô hình thông tin công trình trong quản lý dự án |
|
đầu tư xây dựng được quy định như thế nào? |
|
sentences: |
|
- '1. Thành viên hợp danh bị chấm dứt tư cách trong trường hợp sau đây: |
|
|
|
a) Tự nguyện rút vốn khỏi công ty; |
|
|
|
b) Chết, mất tích, bị hạn chế hoặc mất năng lực hành vi dân sự, có khó khăn trong |
|
nhận thức, làm chủ hành vi; |
|
|
|
c) Bị khai trừ khỏi công ty; |
|
|
|
d) Chấp hành hình phạt tù hoặc bị Tòa án cấm hành nghề hoặc làm công việc nhất |
|
định theo quy định của pháp luật; |
|
|
|
đ) Trường hợp khác do Điều lệ công ty quy định. |
|
|
|
2. Thành viên hợp danh có quyền rút vốn khỏi công ty nếu được Hội đồng thành viên |
|
chấp thuận. Trường hợp này, thành viên muốn rút vốn khỏi công ty phải thông báo |
|
bằng văn bản yêu cầu rút vốn chậm nhất là 06 tháng trước ngày rút vốn; chỉ được |
|
rút vốn vào thời điểm kết thúc năm tài chính và báo cáo tài chính của năm tài |
|
chính đó đã được thông qua. |
|
|
|
3. Thành viên hợp danh bị khai trừ khỏi công ty trong trường hợp sau đây: |
|
|
|
a) Không có khả năng góp vốn hoặc không góp vốn như đã cam kết sau khi công ty |
|
đã có yêu cầu lần thứ hai; |
|
|
|
b) Vi phạm quy định tại Điều 180 của Luật này; |
|
|
|
c) Tiến hành công việc kinh doanh không trung thực, không cẩn trọng hoặc có hành |
|
vi không thích hợp khác gây thiệt hại nghiêm trọng đến lợi ích của công ty và |
|
thành viên khác; |
|
|
|
d) Không thực hiện đúng nghĩa vụ của thành viên hợp danh. |
|
|
|
4. Trường hợp chấm dứt tư cách thành viên của thành viên bị hạn chế hoặc mất năng |
|
lực hành vi dân sự, có khó khăn trong nhận thức, làm chủ hành vi thì phần vốn |
|
góp của thành viên đó được hoàn trả công bằng và thỏa đáng. |
|
|
|
5. Trong thời hạn 02 năm kể từ ngày chấm dứt tư cách thành viên hợp danh theo |
|
quy định tại các điểm a, c, d và đ khoản 1 Điều này thì người đó vẫn phải liên |
|
đới chịu trách nhiệm bằng toàn bộ tài sản của mình đối với các khoản nợ của công |
|
ty đã phát sinh trước ngày chấm dứt tư cách thành viên. |
|
|
|
6. Sau khi chấm dứt tư cách thành viên hợp danh, nếu tên của thành viên đó đã |
|
được sử dụng thành một phần hoặc toàn bộ tên công ty thì người đó hoặc người thừa |
|
kế, người đại diện theo pháp luật của họ có quyền yêu cầu công ty chấm dứt việc |
|
sử dụng tên đó.' |
|
- '1. Phạt cảnh cáo hoặc phạt tiền từ 100.000 đồng đến 500.000 đồng đối với hành |
|
vi thông báo không đủ nội dung theo quy định sau khi được lựa chọn thực hiện đề |
|
án, dự án điều tra cơ bản, tư vấn lập quy hoạch tài nguyên nước. |
|
|
|
2. Phạt tiền từ 3.000.000 đồng đến 5.000.000 đồng đối với hành vi không thông |
|
báo đến cơ quan nhà nước có thẩm quyền theo quy định sau khi được lựa chọn thực |
|
hiện đề án, dự án điều tra cơ bản, tư vấn lập quy hoạch tài nguyên nước. |
|
|
|
3. Phạt tiền từ 20.000.000 đồng đến 30.000.000 đồng đối với hành vi của người |
|
phụ trách kỹ thuật của đề án, dự án điều tra cơ bản tài nguyên nước, tư vấn lập |
|
quy hoạch tài nguyên nước cùng một thời điểm thực hiện từ 03 đề án, dự án điều |
|
tra cơ bản tài nguyên nước hoặc từ 04 dự án lập quy hoạch tài nguyên nước trở |
|
lên. |
|
|
|
4. Phạt tiền từ 30.000.000 đồng đến 40.000.000 đồng đối với hành vi kê khai không |
|
trung thực thông tin trong hồ sơ năng lực lập đề án, báo cáo trong thực hiện đề |
|
án, dự án điều tra cơ bản, tư vấn lập quy hoạch tài nguyên nước. |
|
|
|
5. Hình thức xử phạt bổ sung: |
|
|
|
Đình chỉ hoạt động thực hiện đề án, dự án điều tra cơ bản, tư vấn lập quy hoạch |
|
tài nguyên nước trong thời hạn từ 01 tháng đến 06 tháng đối với hành vi vi phạm |
|
quy định tại khoản 4 Điều này.' |
|
- '1. Khuyến khích áp dụng mô hình thông tin công trình (sau đây gọi tắt là BIM), |
|
giải pháp công nghệ số trong hoạt động xây dựng và quản lý vận hành công trình. |
|
Người quyết định đầu tư quyết định việc áp dụng BIM, giải pháp công nghệ số khi |
|
quyết định dự án đầu tư xây dựng. |
|
|
|
2. Tệp tin BIM là một thành phần trong hồ sơ thiết kế xây dựng, hồ sơ hoàn thành |
|
công trình đối với các dự án, công trình xây dựng áp dụng BIM. Nội dung và mức |
|
độ chi tiết của mô hình thông tin công trình thực hiện theo thỏa thuận của các |
|
bên có liên quan đến việc ứng dụng BIM trong hợp đồng xây dựng. |
|
|
|
3. Thủ tướng Chính phủ quy định lộ trình áp dụng BIM, giải pháp công nghệ số trong |
|
hoạt động xây dựng.' |
|
- source_sentence: Người sử dụng lao động có hành vi không thực hiện đối thoại khi |
|
đại diện tập thể lao động yêu cầu thì bị xử lý ra sao? |
|
sentences: |
|
- '1. Phạt tiền từ 100.000 đồng đến 200.000 đồng đối với hành vi điều khiển xe không |
|
đáp ứng yêu cầu về vệ sinh lưu thông trong đô thị. |
|
|
|
2. Phạt tiền từ 2.000.000 đồng đến 4.000.000 đồng đối với một trong các hành vi |
|
vi phạm sau đây: |
|
|
|
a) Để dầu nhờn, hóa chất rơi vãi xuống đường bộ; |
|
|
|
b) Chở hàng rời, chất thải, vật liệu xây dựng dễ rơi vãi mà không có mui, bạt |
|
che đậy hoặc có mui, bạt che đậy nhưng vẫn để rơi vãi; chở hàng hoặc chất thải |
|
để nước chảy xuống mặt đường gây mất an toàn giao thông và vệ sinh môi trường; |
|
|
|
c) Lôi kéo bùn, đất, cát, nguyên liệu, vật liệu hoặc chất phế thải khác ra đường |
|
bộ gây mất an toàn giao thông và vệ sinh môi trường. |
|
|
|
3. Phạt tiền từ 4.000.000 đồng đến 6.000.000 đồng đối với người điều khiển xe |
|
đổ trái phép rác, đất, cát, đá, vật liệu, chất phế thải trong phạm vi đất dành |
|
cho đường bộ ở đoạn đường ngoài đô thị. |
|
|
|
4. Phạt tiền từ 10.000.000 đồng đến 15.000.000 đồng đối với người điều khiển xe |
|
thực hiện hành vi đổ trái phép rác, đất, cát, đá, vật liệu, chất phế thải ra đường |
|
phố. |
|
|
|
5. Ngoài việc bị phạt tiền, người điều khiển phương tiện thực hiện hành vi vi |
|
phạm quy định tại khoản 3, khoản 4 Điều này còn bị áp dụng hình thức xử phạt bổ |
|
sung tước quyền sử dụng Giấy phép lái xe từ 01 tháng đến 03 tháng. |
|
|
|
6. Ngoài việc bị áp dụng hình thức xử phạt, người điều khiển phương tiện thực |
|
hiện hành vi vi phạm quy định tại khoản 2, khoản 3, khoản 4 Điều này còn bị áp |
|
dụng các biện pháp khắc phục hậu quả: Buộc phải thu dọn rác, chất phế thải, vật |
|
liệu, hàng hóa và khôi phục lại tình trạng ban đầu đã bị thay đổi do vi phạm hành |
|
chính gây ra; nếu gây ô nhiễm môi trường phải thực hiện các biện pháp khắc phục |
|
tình trạng ô nhiễm môi trường do vi phạm hành chính gây ra.' |
|
- '1. Phạt tiền từ 500.000 đồng đến 1.000.000 đồng đối với người sử dụng lao động |
|
có một trong các hành vi sau đây: |
|
|
|
a) Không thực hiện quy chế dân chủ ở cơ sở theo quy định pháp luật; |
|
|
|
b) Không bố trí địa điểm và bảo đảm các điều kiện vật chất khác cho việc đối thoại |
|
tại nơi làm việc. |
|
|
|
2. Phạt tiền từ 2.000.000 đồng đến 5.000.000 đồng đối với người sử dụng lao động |
|
có hành vi không thực hiện đối thoại khi đại diện tập thể lao động yêu cầu.' |
|
- Công ty quản lý quỹ đầu tư chứng khoán phải báo cáo Ủy ban Chứng khoán Nhà nước |
|
định kỳ và bất thường về danh mục đầu tư, hoạt động đầu tư, tình hình tài chính |
|
của quỹ đầu tư chứng khoán. |
|
- source_sentence: Chế độ giáo dục phạm nhân dưới 18 tuổi từ năm 2020 được quy định |
|
như thế nào? |
|
sentences: |
|
- '1. Phạm nhân là người dưới 18 tuổi được giam giữ theo chế độ riêng phù hợp với |
|
sức khỏe, giới tính và đặc điểm nhân thân. |
|
|
|
2. Trại giam có trách nhiệm giáo dục phạm nhân là người dưới 18 tuổi về văn hóa, |
|
pháp luật và dạy nghề phù hợp với độ tuổi, học vấn, giới tính và sức khỏe, chuẩn |
|
bị điều kiện để họ hòa nhập cộng đồng sau khi chấp hành xong án phạt tù. Thực |
|
hiện phổ cập giáo dục tiểu học và giáo dục trung học cơ sở. Giáo dục tiểu học |
|
là bắt buộc đối với phạm nhân chưa học xong chương trình tiểu học.' |
|
- '1. Sĩ quan thôi phục vụ tại ngũ không đủ điều kiện để nghỉ hưu hoặc không chuyển |
|
ngành được thì phục viên về địa phương và được hưởng các quyền lợi như sau: |
|
|
|
a) Được hưởng trợ cấp tạo việc làm bằng 06 tháng tiền lương tối thiểu chung theo |
|
quy định của Chính phủ; được ưu tiên học nghề hoặc giới thiệu việc làm tại các |
|
tổ chức giới thiệu việc làm của các Bộ, ngành, đoàn thể, địa phương và các tổ |
|
chức kinh tế - xã hội khác; |
|
|
|
b) Được hưởng trợ cấp phục viên một lần, cứ mỗi năm công tác được trợ cấp bằng |
|
01 tháng tiền lương; |
|
|
|
c) Được hưởng chế độ bảo hiểm xã hội và các chế độ khác theo quy định hiện hành |
|
của pháp luật. |
|
|
|
2. Sĩ quan đã phục viên về địa phương trong thời gian không quá một năm, kể từ |
|
ngày quyết định phục viên có hiệu lực, nếu được tuyển dụng vào các cơ quan, đơn |
|
vị quy định tại khoản 1 Điều 3 Nghị định này thì được thực hiện chế độ chuyển |
|
ngành. Khi thực hiện chế độ chuyển ngành thì phải hoàn trả khoản trợ cấp phục |
|
viên một lần theo quy định tại điểm b khoản 1 Điều này và trợ cấp bảo hiểm xã |
|
hội một lần đã nhận. Cơ quan, đơn vị quân đội nhân dân ra quyết định chuyển ngành |
|
có trách nhiệm thu lại số tiền trợ cấp phục viên và trợ cấp bảo hiểm xã hội đã |
|
nhận. |
|
|
|
3. Sĩ quan đã phục viên về địa phương trong thời gian không quá một năm, kể từ |
|
ngày quyết định phục viên có hiệu lực, nếu được tuyển dụng vào làm việc tại các |
|
doanh nghiệp, cơ quan, đơn vị không hưởng lương từ ngân sách nhà nước, nếu muốn |
|
tính nối thời gian đóng bảo hiểm xã hội thì phải hoàn trả quỹ bảo hiểm xã hội |
|
khoản trợ cấp bảo hiểm xã hội đã nhận.' |
|
- '1. Công tác nạo vét duy tu luồng hàng hải công cộng và luồng đường thủy nội địa |
|
sử dụng nguồn ngân sách nhà nước do Bộ Giao thông vận tải, Ủy ban nhân dân cấp |
|
tỉnh quản lý được nhà nước bảo đảm, bố trí từ nguồn vốn ngân sách hàng năm để |
|
thực hiện. |
|
|
|
2. Không thực hiện việc bảo hành và mua bảo hiểm thi công công trình nạo vét duy |
|
tu luồng hàng hải công cộng và luồng đường thủy nội địa.' |
|
model-index: |
|
- name: SentenceTransformer based on keepitreal/vietnamese-sbert |
|
results: |
|
- task: |
|
type: binary-classification |
|
name: Binary Classification |
|
dataset: |
|
name: Unknown |
|
type: unknown |
|
metrics: |
|
- type: cosine_accuracy |
|
value: 0.7438524590163934 |
|
name: Cosine Accuracy |
|
- type: cosine_accuracy_threshold |
|
value: 0.5209897756576538 |
|
name: Cosine Accuracy Threshold |
|
- type: cosine_f1 |
|
value: 0.7861842105263158 |
|
name: Cosine F1 |
|
- type: cosine_f1_threshold |
|
value: 0.47490352392196655 |
|
name: Cosine F1 Threshold |
|
- type: cosine_precision |
|
value: 0.6713483146067416 |
|
name: Cosine Precision |
|
- type: cosine_recall |
|
value: 0.9484126984126984 |
|
name: Cosine Recall |
|
- type: cosine_ap |
|
value: 0.7967408055834047 |
|
name: Cosine Ap |
|
- type: cosine_mcc |
|
value: 0.509221602285373 |
|
name: Cosine Mcc |
|
--- |
|
|
|
# SentenceTransformer based on keepitreal/vietnamese-sbert |
|
|
|
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [keepitreal/vietnamese-sbert](https://huggingface.co/keepitreal/vietnamese-sbert). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more. |
|
|
|
## Model Details |
|
|
|
### Model Description |
|
- **Model Type:** Sentence Transformer |
|
- **Base model:** [keepitreal/vietnamese-sbert](https://huggingface.co/keepitreal/vietnamese-sbert) <!-- at revision a9467ef2ef47caa6448edeabfd8e5e5ce0fa2a23 --> |
|
- **Maximum Sequence Length:** 256 tokens |
|
- **Output Dimensionality:** 768 dimensions |
|
- **Similarity Function:** Cosine Similarity |
|
<!-- - **Training Dataset:** Unknown --> |
|
<!-- - **Language:** Unknown --> |
|
<!-- - **License:** Unknown --> |
|
|
|
### Model Sources |
|
|
|
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net) |
|
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers) |
|
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers) |
|
|
|
### Full Model Architecture |
|
|
|
``` |
|
SentenceTransformer( |
|
(0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel |
|
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True}) |
|
) |
|
``` |
|
|
|
## Usage |
|
|
|
### Direct Usage (Sentence Transformers) |
|
|
|
First install the Sentence Transformers library: |
|
|
|
```bash |
|
pip install -U sentence-transformers |
|
``` |
|
|
|
Then you can load this model and run inference. |
|
```python |
|
from sentence_transformers import SentenceTransformer |
|
|
|
# Download from the 🤗 Hub |
|
model = SentenceTransformer("ictumuk/vietnameses_legal_final") |
|
# Run inference |
|
sentences = [ |
|
'Chế độ giáo dục phạm nhân dưới 18 tuổi từ năm 2020 được quy định như thế nào?', |
|
'1. Phạm nhân là người dưới 18 tuổi được giam giữ theo chế độ riêng phù hợp với sức khỏe, giới tính và đặc điểm nhân thân.\n2. Trại giam có trách nhiệm giáo dục phạm nhân là người dưới 18 tuổi về văn hóa, pháp luật và dạy nghề phù hợp với độ tuổi, học vấn, giới tính và sức khỏe, chuẩn bị điều kiện để họ hòa nhập cộng đồng sau khi chấp hành xong án phạt tù. Thực hiện phổ cập giáo dục tiểu học và giáo dục trung học cơ sở. Giáo dục tiểu học là bắt buộc đối với phạm nhân chưa học xong chương trình tiểu học.', |
|
'1. Công tác nạo vét duy tu luồng hàng hải công cộng và luồng đường thủy nội địa sử dụng nguồn ngân sách nhà nước do Bộ Giao thông vận tải, Ủy ban nhân dân cấp tỉnh quản lý được nhà nước bảo đảm, bố trí từ nguồn vốn ngân sách hàng năm để thực hiện.\n2. Không thực hiện việc bảo hành và mua bảo hiểm thi công công trình nạo vét duy tu luồng hàng hải công cộng và luồng đường thủy nội địa.', |
|
] |
|
embeddings = model.encode(sentences) |
|
print(embeddings.shape) |
|
# [3, 768] |
|
|
|
# Get the similarity scores for the embeddings |
|
similarities = model.similarity(embeddings, embeddings) |
|
print(similarities.shape) |
|
# [3, 3] |
|
``` |
|
|
|
<!-- |
|
### Direct Usage (Transformers) |
|
|
|
<details><summary>Click to see the direct usage in Transformers</summary> |
|
|
|
</details> |
|
--> |
|
|
|
<!-- |
|
### Downstream Usage (Sentence Transformers) |
|
|
|
You can finetune this model on your own dataset. |
|
|
|
<details><summary>Click to expand</summary> |
|
|
|
</details> |
|
--> |
|
|
|
<!-- |
|
### Out-of-Scope Use |
|
|
|
*List how the model may foreseeably be misused and address what users ought not to do with the model.* |
|
--> |
|
|
|
## Evaluation |
|
|
|
### Metrics |
|
|
|
#### Binary Classification |
|
|
|
* Evaluated with [<code>BinaryClassificationEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.BinaryClassificationEvaluator) |
|
|
|
| Metric | Value | |
|
|:--------------------------|:-----------| |
|
| cosine_accuracy | 0.7439 | |
|
| cosine_accuracy_threshold | 0.521 | |
|
| cosine_f1 | 0.7862 | |
|
| cosine_f1_threshold | 0.4749 | |
|
| cosine_precision | 0.6713 | |
|
| cosine_recall | 0.9484 | |
|
| **cosine_ap** | **0.7967** | |
|
| cosine_mcc | 0.5092 | |
|
|
|
<!-- |
|
## Bias, Risks and Limitations |
|
|
|
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.* |
|
--> |
|
|
|
<!-- |
|
### Recommendations |
|
|
|
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.* |
|
--> |
|
|
|
## Training Details |
|
|
|
### Training Dataset |
|
|
|
#### Unnamed Dataset |
|
|
|
* Size: 4,391 training samples |
|
* Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>label</code> |
|
* Approximate statistics based on the first 1000 samples: |
|
| | sentence1 | sentence2 | label | |
|
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------| |
|
| type | string | string | int | |
|
| details | <ul><li>min: 7 tokens</li><li>mean: 25.02 tokens</li><li>max: 99 tokens</li></ul> | <ul><li>min: 20 tokens</li><li>mean: 195.65 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>0: ~48.00%</li><li>1: ~52.00%</li></ul> | |
|
* Samples: |
|
| sentence1 | sentence2 | label | |
|
|:----------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------| |
|
| <code>Gửi hồ sơ giả mạo đến kho bạc nhà nước để chi cho chương trình mục tiêu quốc gia phạt bao nhiêu?</code> | <code>1. Phạt tiền từ 10.000.000 đồng đến 15.000.000 đồng đối với hành vi lập hồ sơ, chứng từ giả mạo gửi Kho bạc Nhà nước để thanh toán, chi trả các khoản chi thường xuyên, chi sự nghiệp có tính chất thường xuyên, chi chương trình mục tiêu quốc gia, chương trình mục tiêu sử dụng kinh phí sự nghiệp (loại trừ các khoản chi thực hiện các công trình sửa chữa, bảo trì, cải tạo, nâng cấp, mở rộng cơ sở vật chất từ nguồn kinh phí chi thường xuyên ngân sách nhà nước và nguồn phí được để lại theo chế độ quy định để chi thường xuyên có tổng mức đầu tư trên 500.000.000 đồng).<br>2. Phạt tiền từ 30.000.000 đồng đến 50.000.000 đồng đối với hành vi lập hồ sơ, chứng từ giả mạo gửi Kho bạc Nhà nước để thanh toán vốn đầu tư thuộc nguồn vốn ngân sách nhà nước và nguồn vốn đầu tư từ ngân sách nhà nước thực hiện các chương trình mục tiêu hoặc chi thực hiện các công trình sửa chữa, bảo trì, cải tạo, nâng cấp, mở rộng cơ sở vật chất từ nguồn kinh phí chi thường xuyên ngân sách nhà nước và nguồn phí được để lại theo...</code> | <code>0</code> | |
|
| <code>Điều kiện tham gia hoạt động điều tra, khảo sát, rà phá bom mìn vật nổ sau chiến tranh theo quy định hiện hành</code> | <code>1. Việc quản lý chi phí dự án được thực hiện theo quy định của pháp luật về quản lý chi phí đầu tư xây dựng công trình và theo thỏa thuận với nhà tài trợ nước ngoài.<br>2. Chi phí nhân công trong hoạt động điều tra, khảo sát, rà phá bom mìn vật nổ sau chiến tranh thực hiện như sau:<br>a) Chi phí tiền công và các khoản phụ cấp đối với các đối tượng không hưởng lương từ ngân sách nhà nước khi tham gia hoạt động điều tra, khảo sát, rà phá bom mìn vật nổ sau chiến tranh;<br>b) Chi phí bồi dưỡng đối với các đối tượng hưởng lương từ ngân sách nhà nước khi tham gia hoạt động điều tra, khảo sát, rà phá bom mìn vật nổ sau chiến tranh theo quyết định của Thủ tướng Chính phủ.</code> | <code>0</code> | |
|
| <code>Hiệu lực pháp lý của di chúc miệng khi người lập di chúc phục hồi sức khỏe?</code> | <code>1. Trường hợp tính mạng một người bị cái chết đe dọa và không thể lập di chúc bằng văn bản thì có thể lập di chúc miệng.<br>2. Sau 03 tháng, kể từ thời điểm di chúc miệng mà người lập di chúc còn sống, minh mẫn, sáng suốt thì di chúc miệng mặc nhiên bị hủy bỏ.</code> | <code>1</code> | |
|
* Loss: [<code>CoSENTLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters: |
|
```json |
|
{ |
|
"scale": 20.0, |
|
"similarity_fct": "pairwise_cos_sim" |
|
} |
|
``` |
|
|
|
### Training Hyperparameters |
|
#### Non-Default Hyperparameters |
|
|
|
- `eval_strategy`: steps |
|
- `per_device_train_batch_size`: 16 |
|
- `per_device_eval_batch_size`: 16 |
|
- `learning_rate`: 2e-05 |
|
- `num_train_epochs`: 2 |
|
- `warmup_ratio`: 0.1 |
|
- `fp16`: True |
|
- `batch_sampler`: no_duplicates |
|
|
|
#### All Hyperparameters |
|
<details><summary>Click to expand</summary> |
|
|
|
- `overwrite_output_dir`: False |
|
- `do_predict`: False |
|
- `eval_strategy`: steps |
|
- `prediction_loss_only`: True |
|
- `per_device_train_batch_size`: 16 |
|
- `per_device_eval_batch_size`: 16 |
|
- `per_gpu_train_batch_size`: None |
|
- `per_gpu_eval_batch_size`: None |
|
- `gradient_accumulation_steps`: 1 |
|
- `eval_accumulation_steps`: None |
|
- `learning_rate`: 2e-05 |
|
- `weight_decay`: 0.0 |
|
- `adam_beta1`: 0.9 |
|
- `adam_beta2`: 0.999 |
|
- `adam_epsilon`: 1e-08 |
|
- `max_grad_norm`: 1.0 |
|
- `num_train_epochs`: 2 |
|
- `max_steps`: -1 |
|
- `lr_scheduler_type`: linear |
|
- `lr_scheduler_kwargs`: {} |
|
- `warmup_ratio`: 0.1 |
|
- `warmup_steps`: 0 |
|
- `log_level`: passive |
|
- `log_level_replica`: warning |
|
- `log_on_each_node`: True |
|
- `logging_nan_inf_filter`: True |
|
- `save_safetensors`: True |
|
- `save_on_each_node`: False |
|
- `save_only_model`: False |
|
- `restore_callback_states_from_checkpoint`: False |
|
- `no_cuda`: False |
|
- `use_cpu`: False |
|
- `use_mps_device`: False |
|
- `seed`: 42 |
|
- `data_seed`: None |
|
- `jit_mode_eval`: False |
|
- `use_ipex`: False |
|
- `bf16`: False |
|
- `fp16`: True |
|
- `fp16_opt_level`: O1 |
|
- `half_precision_backend`: auto |
|
- `bf16_full_eval`: False |
|
- `fp16_full_eval`: False |
|
- `tf32`: None |
|
- `local_rank`: 0 |
|
- `ddp_backend`: None |
|
- `tpu_num_cores`: None |
|
- `tpu_metrics_debug`: False |
|
- `debug`: [] |
|
- `dataloader_drop_last`: False |
|
- `dataloader_num_workers`: 0 |
|
- `dataloader_prefetch_factor`: None |
|
- `past_index`: -1 |
|
- `disable_tqdm`: False |
|
- `remove_unused_columns`: True |
|
- `label_names`: None |
|
- `load_best_model_at_end`: False |
|
- `ignore_data_skip`: False |
|
- `fsdp`: [] |
|
- `fsdp_min_num_params`: 0 |
|
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False} |
|
- `fsdp_transformer_layer_cls_to_wrap`: None |
|
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None} |
|
- `deepspeed`: None |
|
- `label_smoothing_factor`: 0.0 |
|
- `optim`: adamw_torch |
|
- `optim_args`: None |
|
- `adafactor`: False |
|
- `group_by_length`: False |
|
- `length_column_name`: length |
|
- `ddp_find_unused_parameters`: None |
|
- `ddp_bucket_cap_mb`: None |
|
- `ddp_broadcast_buffers`: False |
|
- `dataloader_pin_memory`: True |
|
- `dataloader_persistent_workers`: False |
|
- `skip_memory_metrics`: True |
|
- `use_legacy_prediction_loop`: False |
|
- `push_to_hub`: False |
|
- `resume_from_checkpoint`: None |
|
- `hub_model_id`: None |
|
- `hub_strategy`: every_save |
|
- `hub_private_repo`: False |
|
- `hub_always_push`: False |
|
- `gradient_checkpointing`: False |
|
- `gradient_checkpointing_kwargs`: None |
|
- `include_inputs_for_metrics`: False |
|
- `eval_do_concat_batches`: True |
|
- `fp16_backend`: auto |
|
- `push_to_hub_model_id`: None |
|
- `push_to_hub_organization`: None |
|
- `mp_parameters`: |
|
- `auto_find_batch_size`: False |
|
- `full_determinism`: False |
|
- `torchdynamo`: None |
|
- `ray_scope`: last |
|
- `ddp_timeout`: 1800 |
|
- `torch_compile`: False |
|
- `torch_compile_backend`: None |
|
- `torch_compile_mode`: None |
|
- `dispatch_batches`: None |
|
- `split_batches`: None |
|
- `include_tokens_per_second`: False |
|
- `include_num_input_tokens_seen`: False |
|
- `neftune_noise_alpha`: None |
|
- `optim_target_modules`: None |
|
- `batch_eval_metrics`: False |
|
- `prompts`: None |
|
- `batch_sampler`: no_duplicates |
|
- `multi_dataset_batch_sampler`: proportional |
|
|
|
</details> |
|
|
|
### Training Logs |
|
| Epoch | Step | Training Loss | cosine_ap | |
|
|:------:|:----:|:-------------:|:---------:| |
|
| -1 | -1 | - | 0.6371 | |
|
| 0.7273 | 200 | 4.5203 | - | |
|
| 1.4545 | 400 | 3.7861 | - | |
|
| 0.7273 | 200 | 3.1329 | - | |
|
| 1.4545 | 400 | 2.4773 | 0.7967 | |
|
|
|
|
|
### Framework Versions |
|
- Python: 3.10.14 |
|
- Sentence Transformers: 3.4.1 |
|
- Transformers: 4.41.2 |
|
- PyTorch: 2.1.2+cu121 |
|
- Accelerate: 0.34.2 |
|
- Datasets: 2.19.1 |
|
- Tokenizers: 0.19.1 |
|
|
|
## Citation |
|
|
|
### BibTeX |
|
|
|
#### Sentence Transformers |
|
```bibtex |
|
@inproceedings{reimers-2019-sentence-bert, |
|
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks", |
|
author = "Reimers, Nils and Gurevych, Iryna", |
|
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing", |
|
month = "11", |
|
year = "2019", |
|
publisher = "Association for Computational Linguistics", |
|
url = "https://arxiv.org/abs/1908.10084", |
|
} |
|
``` |
|
|
|
#### CoSENTLoss |
|
```bibtex |
|
@online{kexuefm-8847, |
|
title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT}, |
|
author={Su Jianlin}, |
|
year={2022}, |
|
month={Jan}, |
|
url={https://kexue.fm/archives/8847}, |
|
} |
|
``` |
|
|
|
<!-- |
|
## Glossary |
|
|
|
*Clearly define terms in order to be accessible across audiences.* |
|
--> |
|
|
|
<!-- |
|
## Model Card Authors |
|
|
|
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.* |
|
--> |
|
|
|
<!-- |
|
## Model Card Contact |
|
|
|
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.* |
|
--> |