SentenceTransformer based on BAAI/bge-m3

This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: BAAI/bge-m3
Maximum Sequence Length: 256 tokens
Output Dimensionality: 1024 tokens
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("Savoxism/Finetuned-BGE-M3")
# Run inference
sentences = [
    'Bị tạm giam muốn được tại ngoại thì áp dụng biện pháp bảo lĩnh hay đặt tiền để bảo đảm?',
    'Các biện pháp ngăn chặn\n1. Để kịp thời ngăn chặn tội phạm hoặc khi có căn cứ chứng tỏ người bị buộc tội sẽ gây khó khăn cho việc điều tra, truy tố, xét xử hoặc sẽ tiếp tục phạm tội hoặc để bảo đảm thi hành án, cơ quan, người có thẩm quyền tiến hành tố tụng trong phạm vi thẩm quyền của mình có thể áp dụng biện pháp giữ người trong trường hợp khẩn cấp, bắt, tạm giữ, tạm giam, bảo lĩnh, đặt tiền để bảo đảm, cấm đi khỏi nơi cư trú, tạm hoãn xuất cảnh.',
    'Quyền và nghĩa vụ của Đại hội đồng cổ đông\n1. Đại hội đồng cổ đông gồm tất cả cổ đông có quyền biểu quyết, là cơ quan quyết định cao nhất của công ty cổ phần.\n2. Đại hội đồng cổ đông có quyền và nghĩa vụ sau đây:\na) Thông qua định hướng phát triển của công ty;\nb) Quyết định loại cổ phần và tổng số cổ phần của từng loại được quyền chào bán; quyết định mức cổ tức hằng năm của từng loại cổ phần;\nc) Bầu, miễn nhiệm, bãi nhiệm thành viên Hội đồng quản trị, Kiểm soát viên;\nd) Quyết định đầu tư hoặc bán số tài sản có giá trị từ 35% tổng giá trị tài sản trở lên được ghi trong báo cáo tài chính gần nhất của công ty, trừ trường hợp Điều lệ công ty quy định một tỷ lệ hoặc một giá trị khác;\nđ) Quyết định sửa đổi, bổ sung Điều lệ công ty;\ne) Thông qua báo cáo tài chính hằng năm;\ng) Quyết định mua lại trên 10% tổng số cổ phần đã bán của mỗi loại;\nh) Xem xét, xử lý vi phạm của thành viên Hội đồng quản trị, Kiểm soát viên gây thiệt hại cho công ty và cổ đông công ty;\ni) Quyết định tổ chức lại, giải thể công ty;\nk) Quyết định ngân sách hoặc tổng mức thù lao, thưởng và lợi ích khác cho Hội đồng quản trị, Ban kiểm soát;\nl) Phê duyệt quy chế quản trị nội bộ; quy chế hoạt động Hội đồng quản trị, Ban kiểm soát;\nm) Phê duyệt danh sách công ty kiểm toán độc lập; quyết định công ty kiểm toán độc lập thực hiện kiểm tra hoạt động của công ty, bãi miễn kiểm toán viên độc lập khi xét thấy cần thiết;\nn) Quyền và nghĩa vụ khác theo quy định của Luật này và Điều lệ công ty.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

Size: 89,592 training samples
Columns: sentence_0 and sentence_1
Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1
type string string
details
min: 7 tokens
mean: 23.96 tokens
max: 48 tokens

min: 12 tokens
mean: 196.06 tokens
max: 256 tokens

	sentence_0	sentence_1
type	string	string
details	min: 7 tokens mean: 23.96 tokens max: 48 tokens	min: 12 tokens mean: 196.06 tokens max: 256 tokens

Samples:

sentence_0	sentence_1
`Phẫu thuật đóng rò trực tràng niệu đạo sẽ thực hiện theo các bước như thế nào?`	PHẪU THUẬT ĐÓNG RÒ TRỰC TRÀNG - NIỆU ĐẠO ... IV. CHUẨN BỊ 1. Người thực hiện: Phẫu thuật viên tiêu hóa hoặc tiết niệu hoặc phối hợp cả 2 chuyên khoa 2. Người bệnh: Người bệnh cần được chuẩn bị đại tràng trước mổ như một phẫu thuật cắt đoạn trực tràng. 3. Phương tiện: Bộ dụng cụ đại phẫu 4. Dự kiến thời gian phẫu thuật: 180 phút V. CÁC BƯỚC TIẾN HÀNH 1. Tư thế: Sản khoa 2. Vô cảm: Tê tủy sống hoặc mê nội khí quản 3. Kỹ thuật: - Đường mổ: Đường trắng giữa dưới rốn kết hợp đường tầng sinh môn - Tìm niệu đạo - Rạch da đường ngang phía trước lỗ hậu môn, bóc tách các lớp để tìm đường rò niệu đạo trực tràng. Về tiết niệu: - Tìm thấy lỗ rò, đặt sonde bàng quang, khâu lại niệu đạo hoặc cắt đoạn nối tận tận trên sonde bàng quang - Mở thông bàng quang Về trực tràng: - Khâu lại lỗ rò trực tràng - Làm hậu môn nhân tạo trong trường hợp tổ chức thành trực tràng mủn, nguy cơ bục cao
`Việc áp dụng chế độ phụ cấp ưu đãi nghề đối với cán bộ, công chức làm công tác thống kê thực hiện theo nguyên tắc thế nào?`	Nguyên tắc áp dụng 1. Đối tượng được hưởng phụ cấp ưu đãi theo nghề quy định tại Điều 1 Thông tư này là những người được cấp có thẩm quyền quyết định bổ nhiệm vào chức danh hoặc các ngạch công chức ngành thống kê theo quy định của pháp luật; 2. Công chức được bổ nhiệm vào chức danh hoặc ngạch công chức ngành thống kê nào thì được hưởng phụ cấp ưu đãi theo nghề quy định đối với chức danh hoặc ngạch công chức ngành thống kê đó; 3. Các đối tượng quy định tại Điều 1 Thông tư này không được hưởng phụ cấp ưu đãi theo nghề trong các trường hợp sau: a) Khi chuyển sang ngạch công chức khác, nghỉ hưu, thôi việc hoặc nghỉ việc. b) Thời gian đi công tác, làm việc, học tập ở nước ngoài hưởng 40% tiền lương theo quy định tại khoản 4 Điều 8 của Nghị định số 204/2004/NĐ-CP ngày 14 tháng 12 năm 2004 của Chính phủ về chế độ tiền lương đối với cán bộ, công chức, viên chức và lực lượng vũ trang; c) Thời gian đi học trong nước từ 03 tháng liên tục trở lên; d) Thời gian nghỉ việc riêng không hưởng lương từ 01 tháng liên tục trở lên. đ) Thời gian nghỉ ốm đau, thai sản vượt quá thời hạn theo quy định của pháp luật về Bảo hiểm xã hội; e) Thời gian bị đình chỉ công tác. 4. Trường hợp được bổ nhiệm vào ngạch công chức thống kê cao hơn (nâng ngạch) mà tổng mức tiền lương cộng phụ cấp ưu đãi theo nghề ở ngạch mới bổ nhiệm thấp hơn tổng mức tiền lương cộng phụ cấp ưu đãi theo nghề đã hưởng ở ngạch cũ thì được bảo lưu phần chênh lệch giữa tổng mức tiền lương cộng phụ cấp ưu đãi theo nghề ở ngạch cũ so với tổng mức tiền lương cộng phụ cấp ưu đãi theo nghề ở ngạch mới cho đến khi được nâng bậc lương liền kề ở ngạch mới. Ví dụ 1: Ông Nguyễn Văn H, Thống kê viên, đang xếp lương bậc 7, hệ số lương 4,32 ngạch thống kê viên (mã số 23.263); thời gian xét nâng bậc lương lần sau được tính kể từ ngày 01 tháng 10 năm 2008. Tổng mức tiền lương cộng tiền phụ cấp ưu đãi theo nghề của ông H ở ngạch thống kê viên, một tháng (tháng 8 năm 2009) được hưởng là: (4,32 x 650.000) + 4,32 x 650.000 x 20%) = 3.369.600 đồng/tháng. Đến ngày 01 tháng 9 năm 2009, ông H được bổ nhiệm vào ngạch thống kê viên chính (mã số 23.262), xếp bậc 1, hệ số lương 4,40; thời gian xét nâng bậc lương lần sau được tính kể từ ngày 01 tháng 10 năm 2008. Tổng mức tiền lương cộng tiền phụ cấp ưu đãi theo nghề của ông H ở ngạch thống kê viên chính, một tháng (tháng 9 năm 2009) được hưởng là: (4,40 x 650.000) + (4,40 x 650.000 x 15%) = 3.289.000 đồng/tháng Do tổng mức tiền lương cộng tiền phụ cấp ưu đãi theo nghề của ông H tính theo ngạch mới được bổ nhiệm thấp hơn tổng mức tiền lương cộng tiền phụ cấp ưu đãi theo nghề khi còn ở ngạch cũ, nên ông H được bảo lưu phần, chênh lệch là 80.600 đồng (3.369.600 đồng – 3.289.000 đồng) cho đến khi được nâng bậc lương liền kề ở ngạch mới được bổ nhiệm (bậc 2, hệ số lương 4,74 ngạch thống kê viên chính).
`Sinh phẩm là gì?`	`Sinh phẩm (còn gọi là thuốc sinh học) là thuốc được sản xuất bằng công nghệ hoặc quá trình sinh học từ chất hoặc hỗn hợp các chất cao phân tử có nguồn gốc sinh học bao gồm cả dẫn xuất của máu và huyết tương người. Sinh phẩm không bao gồm kháng sinh, chất có nguồn gốc sinh học có phân tử lượng thấp có thể phân lập thành những chất tinh khiết và sinh phẩm chẩn đoán in vitro.`

Loss: CachedMultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim"
}

Training Hyperparameters

Non-Default Hyperparameters

per_device_train_batch_size: 4
per_device_eval_batch_size: 4
num_train_epochs: 1
multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: no
prediction_loss_only: True
per_device_train_batch_size: 4
per_device_eval_batch_size: 4
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 5e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1
num_train_epochs: 1
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.0
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: False
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
dispatch_batches: None
split_batches: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
eval_use_gather_object: False
batch_sampler: batch_sampler
multi_dataset_batch_sampler: round_robin

Training Logs

Epoch	Step	Training Loss
0.0223	500	0.0086
0.0446	1000	0.0053
0.0670	1500	0.0099
0.0893	2000	0.0164
0.1116	2500	0.0114
0.1339	3000	0.0157
0.1563	3500	0.0269
0.1786	4000	0.0133
0.2009	4500	0.0115
0.2232	5000	0.0172
0.2456	5500	0.0182
0.2679	6000	0.018
0.2902	6500	0.008
0.3125	7000	0.0104
0.3349	7500	0.0113
0.3572	8000	0.0102
0.3795	8500	0.0112
0.4018	9000	0.0239
0.4241	9500	0.0159
0.4465	10000	0.0102
0.4688	10500	0.0167
0.4911	11000	0.0067
0.5134	11500	0.0118
0.5358	12000	0.0092
0.5581	12500	0.0056
0.5804	13000	0.0136
0.6027	13500	0.0164
0.6251	14000	0.0052
0.6474	14500	0.0071
0.6697	15000	0.0077
0.6920	15500	0.0072
0.7143	16000	0.0038
0.7367	16500	0.0064
0.7590	17000	0.0069
0.7813	17500	0.0074
0.8036	18000	0.008
0.8260	18500	0.0122
0.8483	19000	0.0061
0.8706	19500	0.0074
0.8929	20000	0.0059
0.9153	20500	0.0057
0.9376	21000	0.0086
0.9599	21500	0.0117
0.9822	22000	0.0037

Framework Versions

Python: 3.10.12
Sentence Transformers: 3.1.1
Transformers: 4.45.2
PyTorch: 2.5.1+cu121
Accelerate: 1.2.1
Datasets: 2.21.0
Tokenizers: 0.20.3

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

Savoxism
/

Finetuned-BGE-M3