SentenceTransformer based on BAAI/bge-m3

This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BAAI/bge-m3
  • Maximum Sequence Length: 256 tokens
  • Output Dimensionality: 1024 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("Savoxism/Finetuned-BGE-M3")
# Run inference
sentences = [
    'Bị tạm giam muốn được tại ngoại thì áp dụng biện pháp bảo lĩnh hay đặt tiền để bảo đảm?',
    'Các biện pháp ngăn chặn\n1. Để kịp thời ngăn chặn tội phạm hoặc khi có căn cứ chứng tỏ người bị buộc tội sẽ gây khó khăn cho việc điều tra, truy tố, xét xử hoặc sẽ tiếp tục phạm tội hoặc để bảo đảm thi hành án, cơ quan, người có thẩm quyền tiến hành tố tụng trong phạm vi thẩm quyền của mình có thể áp dụng biện pháp giữ người trong trường hợp khẩn cấp, bắt, tạm giữ, tạm giam, bảo lĩnh, đặt tiền để bảo đảm, cấm đi khỏi nơi cư trú, tạm hoãn xuất cảnh.',
    'Quyền và nghĩa vụ của Đại hội đồng cổ đông\n1. Đại hội đồng cổ đông gồm tất cả cổ đông có quyền biểu quyết, là cơ quan quyết định cao nhất của công ty cổ phần.\n2. Đại hội đồng cổ đông có quyền và nghĩa vụ sau đây:\na) Thông qua định hướng phát triển của công ty;\nb) Quyết định loại cổ phần và tổng số cổ phần của từng loại được quyền chào bán; quyết định mức cổ tức hằng năm của từng loại cổ phần;\nc) Bầu, miễn nhiệm, bãi nhiệm thành viên Hội đồng quản trị, Kiểm soát viên;\nd) Quyết định đầu tư hoặc bán số tài sản có giá trị từ 35% tổng giá trị tài sản trở lên được ghi trong báo cáo tài chính gần nhất của công ty, trừ trường hợp Điều lệ công ty quy định một tỷ lệ hoặc một giá trị khác;\nđ) Quyết định sửa đổi, bổ sung Điều lệ công ty;\ne) Thông qua báo cáo tài chính hằng năm;\ng) Quyết định mua lại trên 10% tổng số cổ phần đã bán của mỗi loại;\nh) Xem xét, xử lý vi phạm của thành viên Hội đồng quản trị, Kiểm soát viên gây thiệt hại cho công ty và cổ đông công ty;\ni) Quyết định tổ chức lại, giải thể công ty;\nk) Quyết định ngân sách hoặc tổng mức thù lao, thưởng và lợi ích khác cho Hội đồng quản trị, Ban kiểm soát;\nl) Phê duyệt quy chế quản trị nội bộ; quy chế hoạt động Hội đồng quản trị, Ban kiểm soát;\nm) Phê duyệt danh sách công ty kiểm toán độc lập; quyết định công ty kiểm toán độc lập thực hiện kiểm tra hoạt động của công ty, bãi miễn kiểm toán viên độc lập khi xét thấy cần thiết;\nn) Quyền và nghĩa vụ khác theo quy định của Luật này và Điều lệ công ty.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 89,592 training samples
  • Columns: sentence_0 and sentence_1
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1
    type string string
    details
    • min: 7 tokens
    • mean: 23.96 tokens
    • max: 48 tokens
    • min: 12 tokens
    • mean: 196.06 tokens
    • max: 256 tokens
  • Samples:
    sentence_0 sentence_1
    Phẫu thuật đóng rò trực tràng niệu đạo sẽ thực hiện theo các bước như thế nào? PHẪU THUẬT ĐÓNG RÒ TRỰC TRÀNG - NIỆU ĐẠO
    ...
    IV. CHUẨN BỊ
    1. Người thực hiện: Phẫu thuật viên tiêu hóa hoặc tiết niệu hoặc phối hợp cả 2 chuyên khoa
    2. Người bệnh: Người bệnh cần được chuẩn bị đại tràng trước mổ như một phẫu thuật cắt đoạn trực tràng.
    3. Phương tiện: Bộ dụng cụ đại phẫu
    4. Dự kiến thời gian phẫu thuật: 180 phút
    V. CÁC BƯỚC TIẾN HÀNH
    1. Tư thế: Sản khoa
    2. Vô cảm: Tê tủy sống hoặc mê nội khí quản
    3. Kỹ thuật:
    - Đường mổ: Đường trắng giữa dưới rốn kết hợp đường tầng sinh môn
    - Tìm niệu đạo
    - Rạch da đường ngang phía trước lỗ hậu môn, bóc tách các lớp để tìm đường rò niệu đạo trực tràng.
    *Về tiết niệu:
    - Tìm thấy lỗ rò, đặt sonde bàng quang, khâu lại niệu đạo hoặc cắt đoạn nối tận tận trên sonde bàng quang
    - Mở thông bàng quang
    *Về trực tràng:
    - Khâu lại lỗ rò trực tràng
    - Làm hậu môn nhân tạo trong trường hợp tổ chức thành trực tràng mủn, nguy cơ bục cao
    Việc áp dụng chế độ phụ cấp ưu đãi nghề đối với cán bộ, công chức làm công tác thống kê thực hiện theo nguyên tắc thế nào? Nguyên tắc áp dụng
    1. Đối tượng được hưởng phụ cấp ưu đãi theo nghề quy định tại Điều 1 Thông tư này là những người được cấp có thẩm quyền quyết định bổ nhiệm vào chức danh hoặc các ngạch công chức ngành thống kê theo quy định của pháp luật;
    2. Công chức được bổ nhiệm vào chức danh hoặc ngạch công chức ngành thống kê nào thì được hưởng phụ cấp ưu đãi theo nghề quy định đối với chức danh hoặc ngạch công chức ngành thống kê đó;
    3. Các đối tượng quy định tại Điều 1 Thông tư này không được hưởng phụ cấp ưu đãi theo nghề trong các trường hợp sau:
    a) Khi chuyển sang ngạch công chức khác, nghỉ hưu, thôi việc hoặc nghỉ việc.
    b) Thời gian đi công tác, làm việc, học tập ở nước ngoài hưởng 40% tiền lương theo quy định tại khoản 4 Điều 8 của Nghị định số 204/2004/NĐ-CP ngày 14 tháng 12 năm 2004 của Chính phủ về chế độ tiền lương đối với cán bộ, công chức, viên chức và lực lượng vũ trang;
    c) Thời gian đi học trong nước từ 03 tháng liên tục trở lên;
    d) Thời gian nghỉ việc riêng không hưởng lương từ 01 tháng liên tục trở lên.
    đ) Thời gian nghỉ ốm đau, thai sản vượt quá thời hạn theo quy định của pháp luật về Bảo hiểm xã hội;
    e) Thời gian bị đình chỉ công tác.
    4. Trường hợp được bổ nhiệm vào ngạch công chức thống kê cao hơn (nâng ngạch) mà tổng mức tiền lương cộng phụ cấp ưu đãi theo nghề ở ngạch mới bổ nhiệm thấp hơn tổng mức tiền lương cộng phụ cấp ưu đãi theo nghề đã hưởng ở ngạch cũ thì được bảo lưu phần chênh lệch giữa tổng mức tiền lương cộng phụ cấp ưu đãi theo nghề ở ngạch cũ so với tổng mức tiền lương cộng phụ cấp ưu đãi theo nghề ở ngạch mới cho đến khi được nâng bậc lương liền kề ở ngạch mới.
    Ví dụ 1: Ông Nguyễn Văn H, Thống kê viên, đang xếp lương bậc 7, hệ số lương 4,32 ngạch thống kê viên (mã số 23.263); thời gian xét nâng bậc lương lần sau được tính kể từ ngày 01 tháng 10 năm 2008.
    Tổng mức tiền lương cộng tiền phụ cấp ưu đãi theo nghề của ông H ở ngạch thống kê viên, một tháng (tháng 8 năm 2009) được hưởng là:
    (4,32 x 650.000) + 4,32 x 650.000 x 20%) = 3.369.600 đồng/tháng.
    Đến ngày 01 tháng 9 năm 2009, ông H được bổ nhiệm vào ngạch thống kê viên chính (mã số 23.262), xếp bậc 1, hệ số lương 4,40; thời gian xét nâng bậc lương lần sau được tính kể từ ngày 01 tháng 10 năm 2008.
    Tổng mức tiền lương cộng tiền phụ cấp ưu đãi theo nghề của ông H ở ngạch thống kê viên chính, một tháng (tháng 9 năm 2009) được hưởng là:
    (4,40 x 650.000) + (4,40 x 650.000 x 15%) = 3.289.000 đồng/tháng
    Do tổng mức tiền lương cộng tiền phụ cấp ưu đãi theo nghề của ông H tính theo ngạch mới được bổ nhiệm thấp hơn tổng mức tiền lương cộng tiền phụ cấp ưu đãi theo nghề khi còn ở ngạch cũ, nên ông H được bảo lưu phần, chênh lệch là 80.600 đồng (3.369.600 đồng – 3.289.000 đồng) cho đến khi được nâng bậc lương liền kề ở ngạch mới được bổ nhiệm (bậc 2, hệ số lương 4,74 ngạch thống kê viên chính).
    Sinh phẩm là gì? Sinh phẩm (còn gọi là thuốc sinh học) là thuốc được sản xuất bằng công nghệ hoặc quá trình sinh học từ chất hoặc hỗn hợp các chất cao phân tử có nguồn gốc sinh học bao gồm cả dẫn xuất của máu và huyết tương người.
    Sinh phẩm không bao gồm kháng sinh, chất có nguồn gốc sinh học có phân tử lượng thấp có thể phân lập thành những chất tinh khiết và sinh phẩm chẩn đoán in vitro.
  • Loss: CachedMultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 4
  • num_train_epochs: 1
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 4
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step Training Loss
0.0223 500 0.0086
0.0446 1000 0.0053
0.0670 1500 0.0099
0.0893 2000 0.0164
0.1116 2500 0.0114
0.1339 3000 0.0157
0.1563 3500 0.0269
0.1786 4000 0.0133
0.2009 4500 0.0115
0.2232 5000 0.0172
0.2456 5500 0.0182
0.2679 6000 0.018
0.2902 6500 0.008
0.3125 7000 0.0104
0.3349 7500 0.0113
0.3572 8000 0.0102
0.3795 8500 0.0112
0.4018 9000 0.0239
0.4241 9500 0.0159
0.4465 10000 0.0102
0.4688 10500 0.0167
0.4911 11000 0.0067
0.5134 11500 0.0118
0.5358 12000 0.0092
0.5581 12500 0.0056
0.5804 13000 0.0136
0.6027 13500 0.0164
0.6251 14000 0.0052
0.6474 14500 0.0071
0.6697 15000 0.0077
0.6920 15500 0.0072
0.7143 16000 0.0038
0.7367 16500 0.0064
0.7590 17000 0.0069
0.7813 17500 0.0074
0.8036 18000 0.008
0.8260 18500 0.0122
0.8483 19000 0.0061
0.8706 19500 0.0074
0.8929 20000 0.0059
0.9153 20500 0.0057
0.9376 21000 0.0086
0.9599 21500 0.0117
0.9822 22000 0.0037

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.1.1
  • Transformers: 4.45.2
  • PyTorch: 2.5.1+cu121
  • Accelerate: 1.2.1
  • Datasets: 2.21.0
  • Tokenizers: 0.20.3

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
Downloads last month
0
Safetensors
Model size
568M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.

Model tree for Savoxism/Finetuned-BGE-M3

Base model

BAAI/bge-m3
Finetuned
(221)
this model