Tnt3o5 commited on
Commit
c5e862e
·
verified ·
1 Parent(s): 4779587

Add new SentenceTransformer model

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,783 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: Tnt3o5/tnt_v4_lega_new_tokens
3
+ library_name: sentence-transformers
4
+ metrics:
5
+ - cosine_accuracy@1
6
+ - cosine_accuracy@3
7
+ - cosine_accuracy@5
8
+ - cosine_accuracy@10
9
+ - cosine_precision@1
10
+ - cosine_precision@3
11
+ - cosine_precision@5
12
+ - cosine_precision@10
13
+ - cosine_recall@1
14
+ - cosine_recall@3
15
+ - cosine_recall@5
16
+ - cosine_recall@10
17
+ - cosine_ndcg@10
18
+ - cosine_mrr@10
19
+ - cosine_map@100
20
+ pipeline_tag: sentence-similarity
21
+ tags:
22
+ - sentence-transformers
23
+ - sentence-similarity
24
+ - feature-extraction
25
+ - generated_from_trainer
26
+ - dataset_size:101442
27
+ - loss:MatryoshkaLoss
28
+ - loss:MultipleNegativesRankingLoss
29
+ widget:
30
+ - source_sentence: Ai có quyền điều_chỉnh Mệnh_lệnh vận_chuyển vật_liệu nổ công_nghiệp
31
+ trong doanh_nghiệp Quân_đội ?
32
+ sentences:
33
+ - 'Quyền đăng_ký sáng_chế , kiểu_dáng công_nghiệp , thiết_kế bố_trí Tổ_chức , cá_nhân
34
+ sau đây có quyền đăng_ký sáng_chế , kiểu_dáng công_nghiệp , thiết_kế bố_trí :
35
+ Tác giả_tạo ra sáng_chế , kiểu_dáng công_nghiệp , thiết_kế bố_trí bằng công_sức
36
+ và chi_phí của mình ; Tổ_chức , cá_nhân đầu_tư kinh_phí , phương_tiện vật_chất
37
+ cho tác_giả dưới hình_thức giao việc , thuê việc , tổ_chức , cá_nhân được giao
38
+ quản_lý nguồn gen cung_cấp nguồn gen , tri_thức truyền_thống về nguồn gen theo
39
+ hợp_đồng tiếp_cận nguồn gen và chia_sẻ lợi_ích , trừ trường_hợp các bên có thỏa_thuận
40
+ khác hoặc trường_hợp quy_định tại Điều_86a của Luật này . Trường_hợp nhiều tổ_chức
41
+ , cá_nhân cùng nhau tạo ra hoặc đầu_tư để tạo ra sáng_chế , kiểu_dáng công_nghiệp
42
+ , thiết_kế bố_trí thì các tổ_chức , cá_nhân đó đều có quyền đăng_ký và quyền đăng_ký
43
+ đó chỉ được thực_hiện nếu được tất_cả các tổ_chức , cá_nhân đó đồng_ý . Tổ_chức
44
+ , cá_nhân có quyền đăng_ký quy_định tại Điều này có quyền chuyển_giao quyền đăng_ký
45
+ cho tổ_chức , cá_nhân khác dưới hình_thức hợp_đồng bằng văn_bản , để thừa_kế hoặc
46
+ kế_thừa theo quy_định của pháp_luật , kể_cả trường_hợp đã nộp đơn đăng_ký .'
47
+ - 'Nhiệm_vụ cụ_thể của các thành_viên Hội_đồng Ngoài việc thực_hiện các nhiệm_vụ
48
+ quy_định tại Điều_5 của Quy_chế này , Thành_viên Hội_đồng còn có nhiệm_vụ cụ_thể
49
+ sau đây : Thành_viên Hội_đồng là Lãnh_đạo Vụ Pháp_chế có nhiệm_vụ giúp Chủ_tịch
50
+ , Phó Chủ_tịch Hội_đồng , Hội_đồng , điều_hành các công_việc thường_xuyên của
51
+ Hội_đồng ; trực_tiếp lãnh_đạo Tổ Thường_trực ; giải_quyết công_việc đột_xuất của
52
+ Hội_đồng khi cả Chủ_tịch và Phó Chủ_tịch Hội đồng_đều đi vắng . Thành_viên Hội_đồng
53
+ là Lãnh_đạo Vụ An_toàn giao_thông có nhiệm_vụ trực_tiếp theo_dõi , đôn_đốc , kiểm_tra
54
+ và phối_hợp với thủ_trưởng các cơ_quan , đơn_vị thuộc Bộ , Thành_viên Hội_đồng
55
+ là Lãnh_đạo Văn_phòng Ủy_ban ATGTQG , Giám_đốc Sở GTVT , Chủ_tịch Tập_đoàn VINASHIN
56
+ , Tổng giám_đốc các Tổng Công_ty : Hàng_hải Việt_Nam , Đường_sắt Việt_Nam , Hàng_không
57
+ Việt_Nam chỉ_đạo công_tác tuyên_truyền PBGDPL về trật_tự , an_toàn giao_thông
58
+ .'
59
+ - Cấp , điều_chỉnh , thu_hồi và tạm ngừng cấp_Mệnh lệnh vận_chuyển vật_liệu nổ công_nghiệp
60
+ , tiền chất thuốc_nổ Tổng_Tham_mưu_trưởng cấp , điều_chỉnh , thu_hồi hoặc ủy_quyền
61
+ cho người chỉ_huy cơ_quan , đơn_vị thuộc quyền dưới một cấp cấp , điều_chỉnh ,
62
+ thu_hồi Mệnh_lệnh vận_chuyển vật_liệu nổ công_nghiệp , tiền chất thuốc_nổ cho
63
+ cá 5 doanh_nghiệp trực_thuộc Bộ Quốc_phòng và các doanh_nghiệp cổ_phần có vốn
64
+ nhà_nước do Bộ Quốc_phòng làm đại_diện chủ sở_hữu . Đối_với trường_hợp đột_xuất
65
+ khác không có trong kế_hoạch được Tổng_Tham_mưu_trưởng phê_duyệt như quy_định
66
+ tại Điều_5 Thông_tư này , cơ_quan , đơn_vị , doanh_nghiệp cấp dưới báo_cáo cơ_quan
67
+ , đơn_vị , doanh_nghiệp trực_thuộc Bộ Quốc_phòng đề_nghị Tổng_Tham_mưu_trưởng
68
+ cấp_Mệnh lệnh vận_chuyển vật_liệu nổ công_nghiệp , tiền chất thuốc_nổ . Người
69
+ chỉ_huy cơ_quan , đơn_vị ( không phải doanh nghiệ trực_thuộc Bộ Quốc_phòng căn_cứ
70
+ vào kế_hoạch được Tổng_Tham_mưu_trưởng phê_duyệt , thực_hiện hoặc ủy_quyền cho
71
+ người chỉ_huy cơ_quan , đơn_vị thuộc quyền dưới một c��p cấp , điều_chỉnh , thu_hồi
72
+ Mệnh_lệnh vận_chuyển vật_liệu nổ công_nghiệp , tiền chất thuốc_nổ cho đối_tượng
73
+ thuộc phạm_vi quản_lý .
74
+ - source_sentence: Ai có quyền quyết_định phong quân_hàm Đại_tá đối_với sĩ_quan Quân_đội
75
+ giữ chức_vụ Chính_ủy Lữ_đoàn ?
76
+ sentences:
77
+ - 'Thẩm_quyền quyết_định đối_với sĩ_quan Thẩm_quyền bổ_nhiệm , miễn_nhiệm , cách_chức
78
+ , phong , thăng , giáng , tước quân_hàm đối_với sĩ_quan được quy_định như sau
79
+ : Chủ_tịch_nước bổ_nhiệm , miễn_nhiệm , cách_chức Tổng_Tham_mưu_trưởng , Chủ_nhiệm
80
+ Tổng_Cục_Chính_trị ; phong , thăng , giáng , tước quân_hàm Cấp tướng , Chuẩn Đô_đốc
81
+ , Phó Đô_đốc , Đô_đốc Hải_quân ; Thủ_tướng_Chính_phủ bổ_nhiệm , miễn_nhiệm , cách_chức
82
+ Thứ_trưởng ; Phó_Tổng_Tham_mưu_trưởng , Phó Chủ_nhiệm Tổng_Cục_Chính_trị ; Giám_đốc
83
+ , Chính_ủy Học_viện Quốc_phòng ; Chủ_nhiệm Tổng_cục , Tổng cục_trưởng , Chính_ủy
84
+ Tổng_cục ; Tư_lệnh , Chính_ủy Quân_khu ; Tư_lệnh , Chính_ủy Quân_chủng ; Tư_lệnh
85
+ , Chính_ủy Bộ_đội Biên_phòng ; Tư_lệnh , Chính_ủy Cảnh_sát biển Việt_Nam ; Trưởng_Ban
86
+ Cơ_yếu Chính_phủ và các chức_vụ khác theo quy_định của Cấp có thẩm_quyền ; Bộ_trưởng_Bộ_Quốc_phòng
87
+ bổ_nhiệm , miễn_nhiệm , cách_chức các chức_vụ và phong , thăng , giáng , tước
88
+ các Cấp_bậc quân_hàm còn lại và nâng lương sĩ_quan ; Việc bổ_nhiệm , miễn_nhiệm
89
+ , cách_chức các chức_vụ thuộc ngành Kiểm_sát , Toà_án , Thi_hành án trong quân_đội
90
+ được thực_hiện theo quy_định của pháp_luật . Cấp có thẩm_quyền quyết_định bổ_nhiệm
91
+ đến chức_vụ nào thì có quyền miễn_nhiệm , cách_chức , giáng chức , quyết_định
92
+ kéo_dài thời_hạn phục_vụ tại_ngũ , điều_động , biệt_phái , giao chức_vụ thấp hơn
93
+ , cho thôi phục_vụ tại_ngũ , chuyển ngạch và giải ngạch sĩ_quan dự_bị đến chức_vụ
94
+ đó .'
95
+ - 'Nhiệm_vụ , quyền_hạn của Tổng Giám_đốc Trình Hội_đồng thành_viên VNPT để Hội_đồng
96
+ thành_viên Trình cơ_quan nhà_nước có thẩm_quyền quyết_định hoặc phê_duyệt các
97
+ nội_dung thuộc quyền của chủ sở_hữu đối_với VNPT theo quy_định của Điều_lệ này
98
+ . Trình Hội_đồng thành_viên VNPT xem_xét , quyết_định các nội_dung thuộc thẩm_quyền
99
+ của Hội_đồng thành_viên VNPT. Ban_hành quy_chế quản_lý nội_bộ sau khi Hội_đồng
100
+ thành_viên thông_qua . Theo phân_cấp hoặc ủy_quyền theo quy_định của Điều_lệ này
101
+ , Quy_chế_tài_chính , các quy_chế quản_lý nội_bộ của VNPT và các quy_định khác
102
+ của pháp_luật , Tổng Giám_đốc quyết_định : Các dự_án đầu_tư ; hợp_đồng mua , bán
103
+ tài_sản . Các hợp_đồng vay , thuê , cho thuê và hợp_đồng khác . Phương_án sử_dụng
104
+ vốn , tài_sản của VNPT để góp vốn , mua cổ_phần của các doanh_nghiệp . Ban_hành
105
+ các quy_định , quy Trình nội_bộ phục_vụ công_tác quản_lý , Điều_hành sản_xuất
106
+ kinh_doanh của VNPT. Quyết_định thành_lập , giải_thể , tổ_chức lại các đơn_vị
107
+ kinh_tế hạch_toán phụ_thuộc đơn_vị trực_thuộc của VNPT.'
108
+ - 'Thẩm_quyền quyết_định đối_với sĩ_quan Thẩm_quyền bổ_nhiệm , miễn_nhiệm , cách_chức
109
+ , phong , thăng , giáng , tước quân_hàm đối_với sĩ_quan được quy_định như sau
110
+ : Chủ_tịch_nước bổ_nhiệm , miễn_nhiệm , cách_chức Tổng_Tham_mưu_trưởng , Chủ_nhiệm
111
+ Tổng_Cục_Chính_trị ; phong , thăng , giáng , tước quân_hàm Cấp tướng , Chuẩn Đô_đốc
112
+ , Phó Đô_đốc , Đô_đốc Hải_quân ; Thủ_tướng_Chính_phủ bổ_nhiệm , miễn_nhiệm , cách_chức
113
+ Thứ_trưởng ; Phó_Tổng_Tham_mưu_trưởng , Phó Chủ_nhiệm Tổng_Cục_Chính_trị ; Giám_đốc
114
+ , Chính_ủy Học_viện Quốc_phòng ; Chủ_nhiệm Tổng_cục , Tổng cục_trưởng , Chính_ủy
115
+ Tổng_cục ; Tư_lệnh , Chính_ủy Quân_khu ; Tư_lệnh , Chính_ủy Quân_chủng ; Tư_lệnh
116
+ , Chính_ủy Bộ_đội Biên_phòng ; Tư_lệnh , Chính_ủy Cảnh_sát biển Việt_Nam ; Trưởng_Ban
117
+ Cơ_yếu Chính_phủ và các chức_vụ khác theo quy_định của Cấp có thẩm_quyền ; Bộ_trưởng_Bộ_Quốc_phòng
118
+ bổ_nhiệm , miễn_nhiệm , cách_chức các chức_vụ và phong , thăng , giáng , tước
119
+ các Cấp_bậc quân_hàm còn lại và nâng lương sĩ_quan ; Việc bổ_nhiệm , miễn_nhiệm
120
+ , cách_chức các chức_vụ thuộc ngành Kiểm_sát , Toà_án , Thi_hành án trong quân_đội
121
+ được thực_hiện theo quy_định của pháp_luật . Cấp có thẩm_quyền quyết_định bổ_nhiệm
122
+ đến chức_vụ nào thì có quyền miễn_nhiệm , cách_chức , giáng chức , quyết_định
123
+ kéo_dài thời_hạn phục_vụ tại_ngũ , điều_động , biệt_phái , giao chức_vụ thấp hơn
124
+ , cho thôi phục_vụ tại_ngũ , chuyển ngạch và giải ngạch sĩ_quan dự_bị đến chức_vụ
125
+ đó .'
126
+ - source_sentence: Ai có quyền quyết_định thành_lập Hội_đồng Giám_định y_khoa cấp
127
+ tỉnh ? Hội_đồng có tư_cách pháp_nhân không ?
128
+ sentences:
129
+ - Thẩm_quyền thành_lập Hội_đồng giám_định y_khoa các cấp Hội_đồng giám_định y_khoa
130
+ cấp tỉnh do cơ_quan chuyên_môn thuộc Ủy_ban_nhân_dân tỉnh quyết_định thành_lập
131
+ . Hội_đồng giám_định y_khoa cấp trung_ương do Bộ_Y_tế quyết_định thành_lập . Bộ
132
+ Quốc_phòng , Bộ_Công_An , Bộ_Giao_thông_Vận_tải căn_cứ quy_định của Thông_tư này
133
+ để quyết_định thành_lập Hội_đồng giám_định y_khoa các Bộ theo quy_định tại điểm_b
134
+ Khoản_2 Điều_161 Nghị_định số 131/2021/NĐCP.
135
+ - Thẩm_quyền phong , thăng , giáng , tước cấp_bậc hàm , nâng lương sĩ_quan , hạ
136
+ sĩ_quan , chiến_sĩ ; bổ_nhiệm , miễn_nhiệm , cách_chức , giáng chức các chức_vụ
137
+ ; bổ_nhiệm , miễn_nhiệm chức_danh trong Công_an nhân_dân Chủ_tịch_nước phong ,
138
+ thăng cấp_bậc hàm_cấp tướng đối_với sĩ_quan Công_an nhân_dân . Thủ_tướng_Chính_phủ
139
+ bổ_nhiệm chức_vụ Thứ_trưởng Bộ_Công_An ; quyết_định nâng lương cấp_bậc hàm Đại_tướng
140
+ , Thượng_tướng . Bộ_trưởng Bộ_Công_An quyết_định nâng lương cấp_bậc hàm Trung_tướng
141
+ , Thiếu_tướng ; quy_định việc phong , thăng , nâng lương các cấp_bậc hàm , bổ_nhiệm
142
+ các chức_vụ , chức_danh còn lại trong Công_an nhân_dân . Người có thẩm_quyền phong
143
+ , thăng cấp_bậc hàm nào thì có thẩm_quyền giáng , tước cấp_bậc hàm đó ; mỗi lần
144
+ chỉ được thăng , giáng 01 cấp_bậc hàm , trừ trường_hợp đặc_biệt mới xét thăng
145
+ , giáng nhiều cấp_bậc hàm . Người có thẩm_quyền bổ_nhiệm chức_vụ nào thì có thẩm_quyền
146
+ miễn_nhiệm , cách_chức , giáng chức đối_với chức_vụ đó . Người có thẩm_quyền bổ_nhiệm
147
+ chức_danh nào thì có thẩm_quyền miễn_nhiệm đối_với chức_danh đó .
148
+ - Thẩm_quyền duyệt kế_hoạch Đại_hội Đoàn các cấp Ban Thường_vụ Đoàn cấp trên trực_tiếp
149
+ có trách_nhiệm và thẩm_quyền duyệt kế_hoạch Đại_hội Đoàn các đơn_vị trực_thuộc
150
+ . Ban Bí_thư Trung_ương Đoàn duyệt kế_hoạch Đại_hội Đoàn cấp tỉnh .
151
+ - source_sentence: Ai có quyền ký hợp_đồng cộng tác_viên với người đáp_ứng đủ tiêu_chuẩn
152
+ có nguyện_vọng làm Cộng tác_viên pháp điển ?
153
+ sentences:
154
+ - 'Thẩm_quyền lập biên_bản_vi_phạm hành_chính trong lĩnh_vực Kiểm_toán_Nhà_nước_Người
155
+ có thẩm_quyền lập biên_bản_vi_phạm hành_chính trong lĩnh_vực Kiểm_toán_Nhà_nước
156
+ quy_định tại Điều_15 của Pháp_lệnh số { 04 / 2023 / UBTVQH15 , } bao_gồm : Kiểm
157
+ toán_viên nhà_nước ; Tổ_trưởng tổ kiểm_toán ; Phó trưởng_đoàn kiểm_toán ; Trưởng_đoàn
158
+ kiểm_toán ; đ ) Kiểm toán_trưởng . Trường_hợp người đang thi_hành nhiệm_vụ kiểm_toán
159
+ , kiểm_tra thực_hiện kết_luận , kiến_nghị kiểm_toán , nhiệm_vụ tiếp_nhận báo_cáo
160
+ cáo định_kỳ hoặc nhiệm_vụ khác mà không phải là người có thẩm_quyền lập biên_bản_vi_phạm
161
+ hành_chính , nếu phát_hiện_hành_vi vi_phạm hành_chính trong lĩnh_vực Kiểm_toán_Nhà_nước
162
+ thì phải lập biên_bản làm_việc để ghi_nhận sự_việc và chuyển ngay biên_bản làm_việc
163
+ đến người có thẩm_quyền để lập biên_bản_vi_phạm hành_chính theo quy_định .'
164
+ - '" Điều Đăng_ký_kết_hôn Việc kết_hôn phải được đăng_ký và do cơ_quan nhà_nước
165
+ có thẩm_Quyền thực_hiện theo quy_định của Luật này và pháp Luật về hộ_tịch . Việc
166
+ kết_hôn không được đăng_ký theo quy_định tại khoản này thì không có giá_trị pháp_lý
167
+ . Vợ_chồng đã ly_hôn muốn xác_lập lại quan_hệ vợ_chồng thì phải đăng_ký kết_hôn
168
+ . Điều Giải_quyết hậu_quả của việc nam , nữ chung sống với nhau như vợ_chồng mà
169
+ không đăng_ký kết_hôn Nam , nữ có đủ điều_kiện kết_hôn theo quy_định của Luật
170
+ này chung sống với nhau như vợ_chồng mà không đăng_ký kết_hôn thì không làm phát_sinh
171
+ Quyền , nghĩa_vụ giữa vợ và chồng . Quyền , nghĩa_vụ đối_với con , tài_sản , nghĩa_vụ
172
+ và hợp_đồng giữa các bên được giải_quyết theo quy_định tại Điều_15 và Điều_16
173
+ của Luật này . Trong trường_hợp nam , nữ chung sống với nhau như vợ_chồng theo
174
+ quy_định tại Khoản 1_Điều này nhưng sau đó thực_hiện việc đăng_ký kết_hôn theo
175
+ quy_định của pháp Luật thì quan_hệ hôn_nhân được xác_lập từ thời điểm đăng_ký
176
+ kết_hôn . "'
177
+ - Thẩm_quyền , trách_nhiệm của các đơn_vị thuộc Bộ_Tư_pháp trong việc quản_lý ,
178
+ sử_dụng Cộng tác_viên Các đơn_vị thuộc Bộ_Tư_pháp Thủ_trưởng đơn_vị thực_hiện
179
+ pháp điển có quyền ký hợp_đồng cộng_tác với người đáp_ứng đủ tiêu_chuẩn quy_định
180
+ tại Điều_2 Quy_chế này , có nguyện_vọng làm Cộng tác_viên theo nhu_cầu thực_tế
181
+ và phạm_vi , tính_chất công_việc thực_hiện pháp điển của đơn_vị ; thông_báo cho
182
+ Cục Kiểm_tra văn_bản quy_phạm pháp_luật về việc ký hợp_đồng thuê Cộng tác_viên
183
+ và tình_hình thực_hiện công_việc của Cộng tác_viên . Đơn_vị thực_hiện pháp điển
184
+ không được sử_dụng cán_bộ , công_chức , viên_chức thuộc biên_chế của đơn_vị làm
185
+ Cộng tác_viên với đơn_vị mình . Thủ_trưởng đơn_vị thuộc Bộ_Tư_pháp thực_hiện pháp
186
+ điển có_thể tham_khảo Danh_sách nguồn Cộng tác_viên do Cục Kiểm_tra văn_bản quy_phạm
187
+ pháp_luật lập để ký hợp_đồng thuê Cộng tác_viên thực_hiện công_tác pháp điển thuộc
188
+ thẩm_quyền , trách_nhiệm của đơn_vị mình .
189
+ - source_sentence: Ai có quyền_hủy bỏ kết_quả bầu_cử và quyết_định bầu_cử lại đại_biểu
190
+ Quốc_hội ?
191
+ sentences:
192
+ - '" Điều Thẩm_quyền quyết_định tạm hoãn gọi nhập_ngũ , miễn gọi nhập_ngũ và công_nhận
193
+ hoàn_thành nghĩa_vụ quân_sự tại_ngũ Chủ_tịch Ủy_ban_nhân_dân cấp huyện quyết_định
194
+ tạm hoãn gọi nhập_ngũ và miễn gọi nhập_ngũ đối_với công_dân quy_định tại Điều_41
195
+ của Luật này . Chỉ huy_trưởng Ban chỉ_huy quân_sự cấp huyện quyết_định công_nhận
196
+ hoàn_thành nghĩa_vụ quân_sự tại_ngũ đối_với công_dân quy_định tại Khoản_4 Điều_4
197
+ của Luật này . "'
198
+ - Cơ_cấu tổ_chức Tổng cục_trưởng Tổng_cục Hải_quan quy_định nhiệm_vụ và quyền_hạn
199
+ của các Phòng , Đội , Hải_Đội thuộc và trực_thuộc Cục Điều_tra chống buôn_lậu
200
+ .
201
+ - Hủy_bỏ kết_quả bầu_cử và quyết_định bầu_cử lại Hội_đồng_Bầu_cử_Quốc_gia tự mình
202
+ hoặc theo đề_nghị của Ủy_ban_Thường_vụ_Quốc_hội , Chính_phủ , Ủy_ban trung_ương
203
+ Mặt_trận_Tổ_quốc Việt_Nam , Ủy_ban bầu_cử ở tỉnh Hủy_bỏ kết_quả bầu_cử ở khu_vực
204
+ bỏ_phiếu , đơn_vị bầu_cử có vi_phạm_pháp_luật nghiêm_trọng và quyết_định ngày
205
+ bầu_cử lại ở khu_vực bỏ_phiếu , đơn_vị bầu_cử đó . Trong trường_hợp bầu_cử lại
206
+ thì ngày bầu_cử được tiến_hành chậm nhất là 15 ngày sau ngày bầu_cử đầu_tiên .
207
+ Trong cuộc bầu_cử lại , cử_tri chỉ chọn bầu trong danh_sách những người ứng_cử
208
+ tại cuộc bầu_cử đầu_tiên .
209
+ model-index:
210
+ - name: SentenceTransformer based on Tnt3o5/tnt_v4_lega_new_tokens
211
+ results:
212
+ - task:
213
+ type: information-retrieval
214
+ name: Information Retrieval
215
+ dataset:
216
+ name: dim 256
217
+ type: dim_256
218
+ metrics:
219
+ - type: cosine_accuracy@1
220
+ value: 0.4254
221
+ name: Cosine Accuracy@1
222
+ - type: cosine_accuracy@3
223
+ value: 0.6052
224
+ name: Cosine Accuracy@3
225
+ - type: cosine_accuracy@5
226
+ value: 0.6636
227
+ name: Cosine Accuracy@5
228
+ - type: cosine_accuracy@10
229
+ value: 0.7248
230
+ name: Cosine Accuracy@10
231
+ - type: cosine_precision@1
232
+ value: 0.4254
233
+ name: Cosine Precision@1
234
+ - type: cosine_precision@3
235
+ value: 0.20706666666666665
236
+ name: Cosine Precision@3
237
+ - type: cosine_precision@5
238
+ value: 0.13752
239
+ name: Cosine Precision@5
240
+ - type: cosine_precision@10
241
+ value: 0.07594
242
+ name: Cosine Precision@10
243
+ - type: cosine_recall@1
244
+ value: 0.4051
245
+ name: Cosine Recall@1
246
+ - type: cosine_recall@3
247
+ value: 0.58215
248
+ name: Cosine Recall@3
249
+ - type: cosine_recall@5
250
+ value: 0.6421
251
+ name: Cosine Recall@5
252
+ - type: cosine_recall@10
253
+ value: 0.7052
254
+ name: Cosine Recall@10
255
+ - type: cosine_ndcg@10
256
+ value: 0.5619612781230402
257
+ name: Cosine Ndcg@10
258
+ - type: cosine_mrr@10
259
+ value: 0.526433492063493
260
+ name: Cosine Mrr@10
261
+ - type: cosine_map@100
262
+ value: 0.514814431994549
263
+ name: Cosine Map@100
264
+ - task:
265
+ type: information-retrieval
266
+ name: Information Retrieval
267
+ dataset:
268
+ name: dim 128
269
+ type: dim_128
270
+ metrics:
271
+ - type: cosine_accuracy@1
272
+ value: 0.4264
273
+ name: Cosine Accuracy@1
274
+ - type: cosine_accuracy@3
275
+ value: 0.6
276
+ name: Cosine Accuracy@3
277
+ - type: cosine_accuracy@5
278
+ value: 0.662
279
+ name: Cosine Accuracy@5
280
+ - type: cosine_accuracy@10
281
+ value: 0.7194
282
+ name: Cosine Accuracy@10
283
+ - type: cosine_precision@1
284
+ value: 0.4264
285
+ name: Cosine Precision@1
286
+ - type: cosine_precision@3
287
+ value: 0.2053333333333333
288
+ name: Cosine Precision@3
289
+ - type: cosine_precision@5
290
+ value: 0.13707999999999998
291
+ name: Cosine Precision@5
292
+ - type: cosine_precision@10
293
+ value: 0.07544
294
+ name: Cosine Precision@10
295
+ - type: cosine_recall@1
296
+ value: 0.40606666666666663
297
+ name: Cosine Recall@1
298
+ - type: cosine_recall@3
299
+ value: 0.57705
300
+ name: Cosine Recall@3
301
+ - type: cosine_recall@5
302
+ value: 0.6404666666666667
303
+ name: Cosine Recall@5
304
+ - type: cosine_recall@10
305
+ value: 0.70015
306
+ name: Cosine Recall@10
307
+ - type: cosine_ndcg@10
308
+ value: 0.5591685699820262
309
+ name: Cosine Ndcg@10
310
+ - type: cosine_mrr@10
311
+ value: 0.5244388095238101
312
+ name: Cosine Mrr@10
313
+ - type: cosine_map@100
314
+ value: 0.5128272708639572
315
+ name: Cosine Map@100
316
+ - task:
317
+ type: information-retrieval
318
+ name: Information Retrieval
319
+ dataset:
320
+ name: dim 64
321
+ type: dim_64
322
+ metrics:
323
+ - type: cosine_accuracy@1
324
+ value: 0.4076
325
+ name: Cosine Accuracy@1
326
+ - type: cosine_accuracy@3
327
+ value: 0.5866
328
+ name: Cosine Accuracy@3
329
+ - type: cosine_accuracy@5
330
+ value: 0.6478
331
+ name: Cosine Accuracy@5
332
+ - type: cosine_accuracy@10
333
+ value: 0.708
334
+ name: Cosine Accuracy@10
335
+ - type: cosine_precision@1
336
+ value: 0.4076
337
+ name: Cosine Precision@1
338
+ - type: cosine_precision@3
339
+ value: 0.20026666666666665
340
+ name: Cosine Precision@3
341
+ - type: cosine_precision@5
342
+ value: 0.13403999999999996
343
+ name: Cosine Precision@5
344
+ - type: cosine_precision@10
345
+ value: 0.0741
346
+ name: Cosine Precision@10
347
+ - type: cosine_recall@1
348
+ value: 0.38761666666666666
349
+ name: Cosine Recall@1
350
+ - type: cosine_recall@3
351
+ value: 0.5637666666666666
352
+ name: Cosine Recall@3
353
+ - type: cosine_recall@5
354
+ value: 0.6255666666666667
355
+ name: Cosine Recall@5
356
+ - type: cosine_recall@10
357
+ value: 0.6879833333333333
358
+ name: Cosine Recall@10
359
+ - type: cosine_ndcg@10
360
+ value: 0.5444437738024127
361
+ name: Cosine Ndcg@10
362
+ - type: cosine_mrr@10
363
+ value: 0.5090488888888896
364
+ name: Cosine Mrr@10
365
+ - type: cosine_map@100
366
+ value: 0.49745729547355066
367
+ name: Cosine Map@100
368
+ ---
369
+
370
+ # SentenceTransformer based on Tnt3o5/tnt_v4_lega_new_tokens
371
+
372
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [Tnt3o5/tnt_v4_lega_new_tokens](https://huggingface.co/Tnt3o5/tnt_v4_lega_new_tokens). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
373
+
374
+ ## Model Details
375
+
376
+ ### Model Description
377
+ - **Model Type:** Sentence Transformer
378
+ - **Base model:** [Tnt3o5/tnt_v4_lega_new_tokens](https://huggingface.co/Tnt3o5/tnt_v4_lega_new_tokens) <!-- at revision 289ae9c89e03b40e6aa02c8a8b307759eff5ad5b -->
379
+ - **Maximum Sequence Length:** 256 tokens
380
+ - **Output Dimensionality:** 768 dimensions
381
+ - **Similarity Function:** Cosine Similarity
382
+ <!-- - **Training Dataset:** Unknown -->
383
+ <!-- - **Language:** Unknown -->
384
+ <!-- - **License:** Unknown -->
385
+
386
+ ### Model Sources
387
+
388
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
389
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
390
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
391
+
392
+ ### Full Model Architecture
393
+
394
+ ```
395
+ SentenceTransformer(
396
+ (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel
397
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
398
+ )
399
+ ```
400
+
401
+ ## Usage
402
+
403
+ ### Direct Usage (Sentence Transformers)
404
+
405
+ First install the Sentence Transformers library:
406
+
407
+ ```bash
408
+ pip install -U sentence-transformers
409
+ ```
410
+
411
+ Then you can load this model and run inference.
412
+ ```python
413
+ from sentence_transformers import SentenceTransformer
414
+
415
+ # Download from the 🤗 Hub
416
+ model = SentenceTransformer("Tnt3o5/tnt_v5_lega_new_tokens")
417
+ # Run inference
418
+ sentences = [
419
+ 'Ai có quyền_hủy bỏ kết_quả bầu_cử và quyết_định bầu_cử lại đại_biểu Quốc_hội ?',
420
+ 'Hủy_bỏ kết_quả bầu_cử và quyết_định bầu_cử lại Hội_đồng_Bầu_cử_Quốc_gia tự mình hoặc theo đề_nghị của Ủy_ban_Thường_vụ_Quốc_hội , Chính_phủ , Ủy_ban trung_ương Mặt_trận_Tổ_quốc Việt_Nam , Ủy_ban bầu_cử ở tỉnh Hủy_bỏ kết_quả bầu_cử ở khu_vực bỏ_phiếu , đơn_vị bầu_cử có vi_phạm_pháp_luật nghiêm_trọng và quyết_định ngày bầu_cử lại ở khu_vực bỏ_phiếu , đơn_vị bầu_cử đó . Trong trường_hợp bầu_cử lại thì ngày bầu_cử được tiến_hành chậm nhất là 15 ngày sau ngày bầu_cử đầu_tiên . Trong cuộc bầu_cử lại , cử_tri chỉ chọn bầu trong danh_sách những người ứng_cử tại cuộc bầu_cử đầu_tiên .',
421
+ 'Cơ_cấu tổ_chức Tổng cục_trưởng Tổng_cục Hải_quan quy_định nhiệm_vụ và quyền_hạn của các Phòng , Đội , Hải_Đội thuộc và trực_thuộc Cục Điều_tra chống buôn_lậu .',
422
+ ]
423
+ embeddings = model.encode(sentences)
424
+ print(embeddings.shape)
425
+ # [3, 768]
426
+
427
+ # Get the similarity scores for the embeddings
428
+ similarities = model.similarity(embeddings, embeddings)
429
+ print(similarities.shape)
430
+ # [3, 3]
431
+ ```
432
+
433
+ <!--
434
+ ### Direct Usage (Transformers)
435
+
436
+ <details><summary>Click to see the direct usage in Transformers</summary>
437
+
438
+ </details>
439
+ -->
440
+
441
+ <!--
442
+ ### Downstream Usage (Sentence Transformers)
443
+
444
+ You can finetune this model on your own dataset.
445
+
446
+ <details><summary>Click to expand</summary>
447
+
448
+ </details>
449
+ -->
450
+
451
+ <!--
452
+ ### Out-of-Scope Use
453
+
454
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
455
+ -->
456
+
457
+ ## Evaluation
458
+
459
+ ### Metrics
460
+
461
+ #### Information Retrieval
462
+
463
+ * Datasets: `dim_256`, `dim_128` and `dim_64`
464
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
465
+
466
+ | Metric | dim_256 | dim_128 | dim_64 |
467
+ |:--------------------|:----------|:-----------|:-----------|
468
+ | cosine_accuracy@1 | 0.4254 | 0.4264 | 0.4076 |
469
+ | cosine_accuracy@3 | 0.6052 | 0.6 | 0.5866 |
470
+ | cosine_accuracy@5 | 0.6636 | 0.662 | 0.6478 |
471
+ | cosine_accuracy@10 | 0.7248 | 0.7194 | 0.708 |
472
+ | cosine_precision@1 | 0.4254 | 0.4264 | 0.4076 |
473
+ | cosine_precision@3 | 0.2071 | 0.2053 | 0.2003 |
474
+ | cosine_precision@5 | 0.1375 | 0.1371 | 0.134 |
475
+ | cosine_precision@10 | 0.0759 | 0.0754 | 0.0741 |
476
+ | cosine_recall@1 | 0.4051 | 0.4061 | 0.3876 |
477
+ | cosine_recall@3 | 0.5821 | 0.577 | 0.5638 |
478
+ | cosine_recall@5 | 0.6421 | 0.6405 | 0.6256 |
479
+ | cosine_recall@10 | 0.7052 | 0.7002 | 0.688 |
480
+ | **cosine_ndcg@10** | **0.562** | **0.5592** | **0.5444** |
481
+ | cosine_mrr@10 | 0.5264 | 0.5244 | 0.509 |
482
+ | cosine_map@100 | 0.5148 | 0.5128 | 0.4975 |
483
+
484
+ <!--
485
+ ## Bias, Risks and Limitations
486
+
487
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
488
+ -->
489
+
490
+ <!--
491
+ ### Recommendations
492
+
493
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
494
+ -->
495
+
496
+ ## Training Details
497
+
498
+ ### Training Dataset
499
+
500
+ #### Unnamed Dataset
501
+
502
+
503
+ * Size: 101,442 training samples
504
+ * Columns: <code>anchor</code> and <code>positive</code>
505
+ * Approximate statistics based on the first 1000 samples:
506
+ | | anchor | positive |
507
+ |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
508
+ | type | string | string |
509
+ | details | <ul><li>min: 7 tokens</li><li>mean: 20.75 tokens</li><li>max: 46 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 155.2 tokens</li><li>max: 256 tokens</li></ul> |
510
+ * Samples:
511
+ | anchor | positive |
512
+ |:-----------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
513
+ | <code>" Người_lớn ( trên 16 tuổi ) " được hiểu là “ Người_lớn và trẻ_em trên 16 tuổi ”</code> | <code>" Khi triển_khai “ Hướng_dẫn quản_lý tại nhà đối_với người mắc COVID - 19 ” , đề_nghị hướng_dẫn , làm rõ một_số nội_dung như sau : . Mục 3 “ Người_lớn ( trên 16 tuổ ” : đề_nghị hướng_dẫn là “ Người_lớn và trẻ_em trên 16 tuổi ” . "</code> |
514
+ | <code>03 Quy_chuẩn kỹ_thuật quốc_gia được ban_hành tại Thông_tư 04 là Quy_chuẩn nào ?</code> | <code>Ban_hành kèm theo Thông_tư này 03 Quy_chuẩn kỹ_thuật quốc_gia sau : Quy_chuẩn kỹ_thuật quốc_gia về bộ trục bánh_xe của đầu_máy , toa_xe Số_hiệu : QCVN 110 : 2023/BGTVT. Quy_chuẩn kỹ_thuật quốc_gia về bộ móc_nối , đỡ đấm của đầu_máy , toa_xe Số_hiệu : QCVN 111 : 2023/BGTVT. Quy_chuẩn kỹ_thuật quốc_gia về van hãm sử_dụng trên đầu_máy , toa_xe Số_hiệu : QCVN 112 : 2023/BGTVT.</code> |
515
+ | <code>03 Tổng công_ty Cảng hàng_không thực_hiện hợp_nhất có trách_nhiệm như thế_nào theo quy_định ?</code> | <code>Các Tổng công_ty thực_hiện hợp_nhất nêu tại Điều_1 Quyết_định này có trách_nhiệm chuyển_giao nguyên_trạng toàn_bộ tài_sản , tài_chính , lao_động , đất_đai , dự_án đang triển_khai , các quyền , nghĩa_vụ và lợi_ích hợp_pháp khác sang Tổng công_ty Cảng hàng_không Việt_Nam . Trong thời_gian chưa chuyển_giao , Chủ_tịch Hội_đồng thành_viên , Tổng giám_đốc và các cá_nhân có liên_quan của 03 Tổng công_ty thực_hiện hợp_nhất chịu trách_nhiệm quản_lý toàn_bộ tài_sản , tiền vốn của Tổng công_ty , không để hư_hỏng , hao_hụt , thất_thoát .</code> |
516
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
517
+ ```json
518
+ {
519
+ "loss": "MultipleNegativesRankingLoss",
520
+ "matryoshka_dims": [
521
+ 256,
522
+ 128,
523
+ 64
524
+ ],
525
+ "matryoshka_weights": [
526
+ 1,
527
+ 1,
528
+ 1
529
+ ],
530
+ "n_dims_per_step": -1
531
+ }
532
+ ```
533
+
534
+ ### Evaluation Dataset
535
+
536
+ #### Unnamed Dataset
537
+
538
+
539
+ * Size: 4,450 evaluation samples
540
+ * Columns: <code>anchor</code> and <code>positive</code>
541
+ * Approximate statistics based on the first 1000 samples:
542
+ | | anchor | positive |
543
+ |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
544
+ | type | string | string |
545
+ | details | <ul><li>min: 7 tokens</li><li>mean: 20.75 tokens</li><li>max: 46 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 155.2 tokens</li><li>max: 256 tokens</li></ul> |
546
+ * Samples:
547
+ | anchor | positive |
548
+ |:-----------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
549
+ | <code>" Người_lớn ( trên 16 tuổi ) " được hiểu là “ Người_lớn và trẻ_em trên 16 tuổi ”</code> | <code>" Khi triển_khai “ Hướng_dẫn quản_lý tại nhà đối_với người mắc COVID - 19 ” , đề_nghị hướng_dẫn , làm rõ một_số nội_dung như sau : . Mục 3 “ Người_lớn ( trên 16 tuổ ” : đề_nghị hướng_dẫn là “ Người_lớn và trẻ_em trên 16 tuổi ” . "</code> |
550
+ | <code>03 Quy_chuẩn kỹ_thuật quốc_gia được ban_hành tại Thông_tư 04 là Quy_chuẩn nào ?</code> | <code>Ban_hành kèm theo Thông_tư này 03 Quy_chuẩn kỹ_thuật quốc_gia sau : Quy_chuẩn kỹ_thuật quốc_gia về bộ trục bánh_xe của đầu_máy , toa_xe Số_hiệu : QCVN 110 : 2023/BGTVT. Quy_chuẩn kỹ_thuật quốc_gia về bộ móc_nối , đỡ đấm của đầu_máy , toa_xe Số_hiệu : QCVN 111 : 2023/BGTVT. Quy_chuẩn kỹ_thuật quốc_gia về van hãm sử_dụng trên đầu_máy , toa_xe Số_hiệu : QCVN 112 : 2023/BGTVT.</code> |
551
+ | <code>03 Tổng công_ty Cảng hàng_không thực_hiện hợp_nhất có trách_nhiệm như thế_nào theo quy_định ?</code> | <code>Các Tổng công_ty thực_hiện hợp_nhất nêu tại Điều_1 Quyết_định này có trách_nhiệm chuyển_giao nguyên_trạng toàn_bộ tài_sản , tài_chính , lao_động , đất_đai , dự_án đang triển_khai , các quyền , nghĩa_vụ và lợi_ích hợp_pháp khác sang Tổng công_ty Cảng hàng_không Việt_Nam . Trong thời_gian chưa chuyển_giao , Chủ_tịch Hội_đồng thành_viên , Tổng giám_đốc và các cá_nhân có liên_quan của 03 Tổng công_ty thực_hiện hợp_nhất chịu trách_nhiệm quản_lý toàn_bộ tài_sản , tiền vốn của Tổng công_ty , không để hư_hỏng , hao_hụt , thất_thoát .</code> |
552
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
553
+ ```json
554
+ {
555
+ "loss": "MultipleNegativesRankingLoss",
556
+ "matryoshka_dims": [
557
+ 256,
558
+ 128,
559
+ 64
560
+ ],
561
+ "matryoshka_weights": [
562
+ 1,
563
+ 1,
564
+ 1
565
+ ],
566
+ "n_dims_per_step": -1
567
+ }
568
+ ```
569
+
570
+ ### Training Hyperparameters
571
+ #### Non-Default Hyperparameters
572
+
573
+ - `eval_strategy`: steps
574
+ - `per_device_train_batch_size`: 16
575
+ - `per_device_eval_batch_size`: 16
576
+ - `gradient_accumulation_steps`: 8
577
+ - `learning_rate`: 2e-05
578
+ - `weight_decay`: 0.01
579
+ - `max_grad_norm`: 0.1
580
+ - `max_steps`: 1200
581
+ - `lr_scheduler_type`: cosine
582
+ - `warmup_ratio`: 0.15
583
+ - `fp16`: True
584
+ - `load_best_model_at_end`: True
585
+ - `optim`: adamw_torch_fused
586
+ - `gradient_checkpointing`: True
587
+ - `batch_sampler`: no_duplicates
588
+
589
+ #### All Hyperparameters
590
+ <details><summary>Click to expand</summary>
591
+
592
+ - `overwrite_output_dir`: False
593
+ - `do_predict`: False
594
+ - `eval_strategy`: steps
595
+ - `prediction_loss_only`: True
596
+ - `per_device_train_batch_size`: 16
597
+ - `per_device_eval_batch_size`: 16
598
+ - `per_gpu_train_batch_size`: None
599
+ - `per_gpu_eval_batch_size`: None
600
+ - `gradient_accumulation_steps`: 8
601
+ - `eval_accumulation_steps`: None
602
+ - `torch_empty_cache_steps`: None
603
+ - `learning_rate`: 2e-05
604
+ - `weight_decay`: 0.01
605
+ - `adam_beta1`: 0.9
606
+ - `adam_beta2`: 0.999
607
+ - `adam_epsilon`: 1e-08
608
+ - `max_grad_norm`: 0.1
609
+ - `num_train_epochs`: 3.0
610
+ - `max_steps`: 1200
611
+ - `lr_scheduler_type`: cosine
612
+ - `lr_scheduler_kwargs`: {}
613
+ - `warmup_ratio`: 0.15
614
+ - `warmup_steps`: 0
615
+ - `log_level`: passive
616
+ - `log_level_replica`: warning
617
+ - `log_on_each_node`: True
618
+ - `logging_nan_inf_filter`: True
619
+ - `save_safetensors`: True
620
+ - `save_on_each_node`: False
621
+ - `save_only_model`: False
622
+ - `restore_callback_states_from_checkpoint`: False
623
+ - `no_cuda`: False
624
+ - `use_cpu`: False
625
+ - `use_mps_device`: False
626
+ - `seed`: 42
627
+ - `data_seed`: None
628
+ - `jit_mode_eval`: False
629
+ - `use_ipex`: False
630
+ - `bf16`: False
631
+ - `fp16`: True
632
+ - `fp16_opt_level`: O1
633
+ - `half_precision_backend`: auto
634
+ - `bf16_full_eval`: False
635
+ - `fp16_full_eval`: False
636
+ - `tf32`: None
637
+ - `local_rank`: 0
638
+ - `ddp_backend`: None
639
+ - `tpu_num_cores`: None
640
+ - `tpu_metrics_debug`: False
641
+ - `debug`: []
642
+ - `dataloader_drop_last`: False
643
+ - `dataloader_num_workers`: 0
644
+ - `dataloader_prefetch_factor`: None
645
+ - `past_index`: -1
646
+ - `disable_tqdm`: False
647
+ - `remove_unused_columns`: True
648
+ - `label_names`: None
649
+ - `load_best_model_at_end`: True
650
+ - `ignore_data_skip`: False
651
+ - `fsdp`: []
652
+ - `fsdp_min_num_params`: 0
653
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
654
+ - `fsdp_transformer_layer_cls_to_wrap`: None
655
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
656
+ - `deepspeed`: None
657
+ - `label_smoothing_factor`: 0.0
658
+ - `optim`: adamw_torch_fused
659
+ - `optim_args`: None
660
+ - `adafactor`: False
661
+ - `group_by_length`: False
662
+ - `length_column_name`: length
663
+ - `ddp_find_unused_parameters`: None
664
+ - `ddp_bucket_cap_mb`: None
665
+ - `ddp_broadcast_buffers`: False
666
+ - `dataloader_pin_memory`: True
667
+ - `dataloader_persistent_workers`: False
668
+ - `skip_memory_metrics`: True
669
+ - `use_legacy_prediction_loop`: False
670
+ - `push_to_hub`: False
671
+ - `resume_from_checkpoint`: None
672
+ - `hub_model_id`: None
673
+ - `hub_strategy`: every_save
674
+ - `hub_private_repo`: False
675
+ - `hub_always_push`: False
676
+ - `gradient_checkpointing`: True
677
+ - `gradient_checkpointing_kwargs`: None
678
+ - `include_inputs_for_metrics`: False
679
+ - `eval_do_concat_batches`: True
680
+ - `fp16_backend`: auto
681
+ - `push_to_hub_model_id`: None
682
+ - `push_to_hub_organization`: None
683
+ - `mp_parameters`:
684
+ - `auto_find_batch_size`: False
685
+ - `full_determinism`: False
686
+ - `torchdynamo`: None
687
+ - `ray_scope`: last
688
+ - `ddp_timeout`: 1800
689
+ - `torch_compile`: False
690
+ - `torch_compile_backend`: None
691
+ - `torch_compile_mode`: None
692
+ - `dispatch_batches`: None
693
+ - `split_batches`: None
694
+ - `include_tokens_per_second`: False
695
+ - `include_num_input_tokens_seen`: False
696
+ - `neftune_noise_alpha`: None
697
+ - `optim_target_modules`: None
698
+ - `batch_eval_metrics`: False
699
+ - `eval_on_start`: False
700
+ - `use_liger_kernel`: False
701
+ - `eval_use_gather_object`: False
702
+ - `prompts`: None
703
+ - `batch_sampler`: no_duplicates
704
+ - `multi_dataset_batch_sampler`: proportional
705
+
706
+ </details>
707
+
708
+ ### Training Logs
709
+ | Epoch | Step | Training Loss | Validation Loss | dim_256_cosine_ndcg@10 | dim_128_cosine_ndcg@10 | dim_64_cosine_ndcg@10 |
710
+ |:----------:|:--------:|:-------------:|:---------------:|:----------------------:|:----------------------:|:---------------------:|
711
+ | 0.5047 | 400 | 0.4797 | 0.3000 | 0.5544 | 0.5504 | 0.5393 |
712
+ | 1.0090 | 800 | 0.4274 | 0.2888 | 0.5583 | 0.5534 | 0.5415 |
713
+ | **1.5136** | **1200** | **0.3211** | **0.2089** | **0.562** | **0.5592** | **0.5444** |
714
+
715
+ * The bold row denotes the saved checkpoint.
716
+
717
+ ### Framework Versions
718
+ - Python: 3.10.14
719
+ - Sentence Transformers: 3.3.0
720
+ - Transformers: 4.45.1
721
+ - PyTorch: 2.4.0
722
+ - Accelerate: 0.34.2
723
+ - Datasets: 3.0.1
724
+ - Tokenizers: 0.20.0
725
+
726
+ ## Citation
727
+
728
+ ### BibTeX
729
+
730
+ #### Sentence Transformers
731
+ ```bibtex
732
+ @inproceedings{reimers-2019-sentence-bert,
733
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
734
+ author = "Reimers, Nils and Gurevych, Iryna",
735
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
736
+ month = "11",
737
+ year = "2019",
738
+ publisher = "Association for Computational Linguistics",
739
+ url = "https://arxiv.org/abs/1908.10084",
740
+ }
741
+ ```
742
+
743
+ #### MatryoshkaLoss
744
+ ```bibtex
745
+ @misc{kusupati2024matryoshka,
746
+ title={Matryoshka Representation Learning},
747
+ author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
748
+ year={2024},
749
+ eprint={2205.13147},
750
+ archivePrefix={arXiv},
751
+ primaryClass={cs.LG}
752
+ }
753
+ ```
754
+
755
+ #### MultipleNegativesRankingLoss
756
+ ```bibtex
757
+ @misc{henderson2017efficient,
758
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
759
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
760
+ year={2017},
761
+ eprint={1705.00652},
762
+ archivePrefix={arXiv},
763
+ primaryClass={cs.CL}
764
+ }
765
+ ```
766
+
767
+ <!--
768
+ ## Glossary
769
+
770
+ *Clearly define terms in order to be accessible across audiences.*
771
+ -->
772
+
773
+ <!--
774
+ ## Model Card Authors
775
+
776
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
777
+ -->
778
+
779
+ <!--
780
+ ## Model Card Contact
781
+
782
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
783
+ -->
added_tokens.json ADDED
The diff for this file is too large to render. See raw diff
 
bpe.codes ADDED
The diff for this file is too large to render. See raw diff
 
config.json ADDED
@@ -0,0 +1,29 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "Tnt3o5/tnt_v4_lega_new_tokens",
3
+ "architectures": [
4
+ "RobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "gradient_checkpointing": false,
11
+ "hidden_act": "gelu",
12
+ "hidden_dropout_prob": 0.1,
13
+ "hidden_size": 768,
14
+ "initializer_range": 0.02,
15
+ "intermediate_size": 3072,
16
+ "layer_norm_eps": 1e-05,
17
+ "max_position_embeddings": 258,
18
+ "model_type": "roberta",
19
+ "num_attention_heads": 12,
20
+ "num_hidden_layers": 12,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "tokenizer_class": "PhobertTokenizer",
24
+ "torch_dtype": "float32",
25
+ "transformers_version": "4.45.1",
26
+ "type_vocab_size": 1,
27
+ "use_cache": true,
28
+ "vocab_size": 70468
29
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.3.0",
4
+ "transformers": "4.45.1",
5
+ "pytorch": "2.4.0"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7ec857ef00f167cb133ae4696fa28ce0d2228d0b3c44dde5fe776b87cd377d9f
3
+ size 559882088
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 256,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer_config.json ADDED
The diff for this file is too large to render. See raw diff
 
vocab.txt ADDED
The diff for this file is too large to render. See raw diff