SentenceTransformer based on BAAI/bge-m3

This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BAAI/bge-m3
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 1024 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("strongpear/M3-retriever-LAW")
# Run inference
sentences = [
    'Các hình thức tuyên truyền nào được đề cập trong ngữ cảnh?',
    'Kịch nói, văn nghệ quần chúng: None, Kịch nói, văn nghệ quần chúng.1: None, Kịch nói, văn nghệ quần chúng.2: None, Kịch nói, văn nghệ quần chúng.3: None, Chiếu phim lưu động: None, Chiếu phim lưu động.1: None, Chiếu phim lưu động.2: None, Chiếu phim lưu động.3: None, Gương điển hình: None, Gương điển hình.1: None, Gương điển hình.2: None, Gương điển hình.3: None, Tuyên truyền miệng (thông qua họp chợ, họp thôn, chi bộ, hội nghị.): None, Tuyên truyền miệng (thông qua họp chợ, họp thôn, chi bộ, hội nghị.).1: None, Tuyên truyền miệng (thông qua họp chợ, họp thôn, chi bộ, hội nghị.).2: None, Tuyên truyền miệng (thông qua họp chợ, họp thôn, chi bộ, hội nghị.).3: None, Tổ chức ra quân: None, Tổ chức ra quân.1: None, Tổ chức ra quân.2: None, Tổ chức ra quân.3: None TT: . Địa điểm thực hiện: . Kịch nói, văn nghệ quần chúng: None, Kịch nói, văn nghệ quần chúng.1: None, Kịch nói, văn nghệ quần chúng.2: None, Kịch nói, văn nghệ quần chúng.3: None, Chiếu phim lưu động: None, Chiếu phim lưu động.1: None, Chiếu phim lưu động.2: None, Chiếu phim lưu động.3: None, Gương điển hình: None, Gương điển hình.1: None, Gương điển hình.2: None, Gương điển hình.3: None, Tuyên truyền miệng (thông qua họp chợ, họp thôn, chi bộ, hội nghị.): None, Tuyên truyền miệng (thông qua họp chợ, họp thôn, chi bộ, hội nghị.).1: None, Tuyên truyền miệng (thông qua họp chợ, họp thôn, chi bộ, hội nghị.).2: None, Tuyên truyền miệng (thông qua họp chợ, họp thôn, chi bộ, hội nghị.).3: None, Tổ chức ra quân: None, Tổ chức ra quân.1: None, Tổ chức ra quân.2: None, Tổ chức ra quân.3: None TT: TỔNG CỘNG, Địa điểm thực hiện: TỔNG CỘNG, Kịch nói, văn nghệ quần chúng: -, Kịch nói, văn nghệ quần chúng.1: -, Kịch nói,',
    '0, Tên cơ sở: Nhà máy chế biến thủy sản của Công ty CP thực phẩm Sao Ta, Địa chỉ: Km2132, Quốc lộ 1A, phường 2, thành phố Sóc Trăng, tỉnh Sóc Trăng, Nội dung: Kiểm tra tiến độ xử lý ô nhiễm triệt để và việc chấp hành các quy định về bảo vệ môi trường đối với cơ sở gây ô nhiễm môi trường nghiêm trọng mới phát sinh phải xử lý trong giai đoạn 2 của Quyết định số 64/2003/QĐ-TTg của Nhà máy chế biến thủy sản của Công ty CP thực phẩm Sao Ta, Địa điểm, thành phần làm việc với Đoàn kiểm tra: - Trụ sở Nhà máy chế biến thủy sản của Công ty CP thực phẩm Sao Ta; - Đại diện lãnh đạo và cán bộ phụ trách môi trường của Nhà máy chế biến thủy sản của Công ty CP thực phẩm Sao Ta; Thời gian công bố Quyết định: 08h00 ngày 20/07/2011 Stt: 5.0, Tên cơ sở: Nhà máy thu mua - chế biến thủy sản Thanh Khiết (Công ty TNHH Thanh Khiết), Địa chỉ: Thị trấn Vĩnh Châu, huyện Vĩnh Châu, tỉnh Sóc Trăng, Nội dung: Kiểm tra tiến độ xử lý ô nhiễm triệt để và việc chấp hành các quy định về bảo vệ môi trường đối với cơ sở gây ô nhiễm môi trường nghiêm trọng mới phát sinh phải xử lý trong giai đoạn 2 của Quyết định số 64/2003/QĐ-TTg của Nhà máy thu mua - chế biến thủy sản Thanh Khiết, Địa điểm, thành phần làm việc với Đoàn kiểm tra: - Trụ sở Nhà máy thu mua - chế biến thủy sản Thanh Khiết; - Đại diện lãnh đạo và cán bộ phụ trách môi trường của Nhà máy thu mua - chế biến thủy sản Thanh Khiết; Thời gian công bố Quyết định: 14h00 ngày 20/07/2011 Stt: 6.0, Tên cơ sở: Xưởng sản xuất của Công ty TNHH Phương Nam, Địa chỉ: Quốc lộ 1, phường 7, thành phố Sóc Trăng, tỉnh Sóc Trăng,',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 89,100 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 13 tokens
    • mean: 25.91 tokens
    • max: 60 tokens
    • min: 31 tokens
    • mean: 400.4 tokens
    • max: 896 tokens
  • Samples:
    anchor positive
    Các công việc đo vẽ bản đồ tỷ lệ 1/200 có đường đồng mức 0,5m và 1m địa hình I, II, III, IV, V có mã đơn giá nào? đ­ường đồng mức 0,5m địa hình II, Đơn vị: Ha, Vật liệu: 64.301, VÙNG III: 3.218.736, VÙNG III.1: 241.655, VÙNG IV: 3.048.518, VÙNG IV.1: 241.655 Mã đơn giá: CK.11130, Công việc: Đo vẽ bản đồ tỷ lệ 1/200, đ­ường đồng mức 0,5m địa hình III, Đơn vị: Ha, Vật liệu: 81.295, VÙNG III: 4.403.904, VÙNG III.1: 370.187, VÙNG IV: 4.171.010, VÙNG IV.1: 370.187 Mã đơn giá: CK.11140, Công việc: Đo vẽ bản đồ tỷ lệ 1/200, đư­ờng đồng mức 0,5m địa hình IV, Đơn vị: Ha, Vật liệu: 81.295, VÙNG III: 5.875.488, VÙNG III.1: 451.529, VÙNG IV: 5.564.771, VÙNG IV.1: 451.529 Mã đơn giá: CK.11150, Công việc: Đo vẽ bản đồ tỷ lệ 1/200, đ­ường đồng mức 0,5m địa hình V, Đơn vị: Ha, Vật liệu: 98.288, VÙNG III: 8.207.280, VÙNG III.1: 640.465, VÙNG IV: 7.773.250, VÙNG IV.1: 640.465 Mã đơn giá: CK.11200, Công việc: Đo vẽ bản đồ tỷ lệ 1/200, đư­ờng đồng mức 1 m, Đơn vị: None, Vật liệu: None, VÙNG III: None, VÙNG III.1: None, VÙNG IV: None, VÙNG IV.1: None Mã đơn giá: CK.11210, Công việc: Đo vẽ bản đồ tỷ lệ 1/200, đ­ường đồ...
    Sở Y tế có những nhiệm vụ gì để nâng cao chất lượng dịch vụ chăm sóc sức khỏe cho người dân? Sở Y tế phối hợp cùng các sở, ngành có liên quan: - Củng cố mạng lưới y tế cơ sở, phát triển sự nghiệp y tế, nâng cao chất lượng các dịch vụ chăm sóc sức khỏe; đảm bảo cho mọi người dân đều dễ dàng được tiếp cận các dịch vụ y tế, đặc biệt là ở vùng sâu, vùng xa, vùng khó khăn và người nghèo, tạo sự công bằng trong khám chữa bệnh. - Bảo hiểm xã hội tỉnh, Sở Lao động, Thương binh và Xã hội, UBND các huyện, thành phố triển khai thực hiện tốt chính sách BHYT cho người nghèo, người khó khăn và các đối tượng chính sách được hưởng các dịch vụ y tế. - Từng bước khắc phục tình trạng quá tải bệnh viện tuyến tỉnh; chủ động áp dụng chế độ luân phiên cán bộ y tế xuống tuyến dưới, nâng cao chất lượng khám chữa bệnh. Quản lý chặt chẽ chất lượng và chấp hành pháp luật trong khám chữa bệnh, thị trường thuốc chữa bệnh, nâng cao y đức trong khám chữa bệnh, đa dạng hóa các loại hình dịch vụ y tế kỹ thuật cao; huy động các nguồn lực để đầu tư xây dựng hệ thống các bệnh viện, phòng khám đa khoa khu vực, mua...
    Sở Văn hóa, Thể thao và Du lịch có những nhiệm vụ gì trong việc quản lý băng đĩa và trò chơi trên địa bàn tỉnh? Sở Văn hóa, Thể thao và Du lịch.
    a) Chủ trì, phối hợp với Chi cục Quản lý thị trường tỉnh, Công an tỉnh, UBND cấp huyện tăng cường công tác thanh tra, kiểm tra, xử lý băng đĩa, trò chơi nhập lậu, các băng đĩa trò chơi có nội dung bạo lực, đồi trụy, xuyên tạc lịch sử và chống phá Đảng, Nhà nước Cộng hòa XHCN Việt Nam.
    b) Đẩy mạnh công tác tuyên truyền về phong trào xây dựng nếp sống văn hóa trên địa bàn tỉnh, về xây dựng gia đình văn hóa, làng bản văn hóa, cơ quan, trường học văn hóa.
    6. Chi cục Quản lý thị trường tỉnh.
    Tăng cường công tác kiểm tra, phát hiện và xử lý nghiêm các đĩa trò chơi nhập lậu trên thị trường.
    a) Chỉ đạo các cơ sở Đoàn tuyên truyền, vận động và hướng dẫn đoàn viên, thanh, thiếu niên chấp hành nghiêm chỉnh các quy định của pháp luật về quản lý, cung cấp, sử dụng dịch vụ Internet.
    b) Phối hợp với Sở Giáo dục và Đào tạo, các đơn vị liên quan tổ chức các hoạt động tuyên truyền, hướng dẫn thanh, thiếu niên, học sinh, sinh viên khi sử dụng Internet và trò chơi tr...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 900 evaluation samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 900 samples:
    anchor positive
    type string string
    details
    • min: 13 tokens
    • mean: 26.0 tokens
    • max: 62 tokens
    • min: 29 tokens
    • mean: 399.12 tokens
    • max: 772 tokens
  • Samples:
    anchor positive
    Chủ tịch UBND các huyện, thị xã, thành phố có trách nhiệm gì trong việc quản lý phân bón? e) Định kỳ 06 (sáu) tháng, hàng năm Chủ tịch UBND các huyện, thị xã, thành phố có trách nhiệm báo cáo công tác quản lý nhà nước đối với các hoạt động quản lý phân bón trên địa bàn, đồng thời kiến nghị biện pháp, giải pháp nhằm nâng cao chất lượng, hiệu quả quản lý nhà nước đối với việc quản lý phân bón về Sở Nông nghiệp và Phát triển nông thôn để tổng hợp, báo cáo UBND tỉnh.
    a) Duy trì đầy đủ các điều kiện và trách nhiệm trong sản xuất, buôn bán phân bón quy định tại Điều 41, Điều 42 Luật Trồng trọt; Nghị định số 84/2019/NĐ-CP ngày 14/11/2019 của Chính phủ Quy định về quản lý phân bón.
    b) Sản xuất, buôn bán phân bón đúng quy chuẩn kỹ thuật quốc gia và tiêu chuẩn công bố áp dụng.
    c) Thu hồi, xử lý phân bón không bảo đảm chất lượng và bồi thường thiệt hại theo quy định của pháp luật.
    d) Chấp hành nghiêm việc thanh tra, kiểm tra và xử lý của cơ quan nhà nước có thẩm quyền.
    e) Chấp hành nghiêm các quy định của pháp luật về: phòng cháy và chữa cháy, hóa chất, lao động, môi trường và qu...
    Trung tâm và Chi nhánh cần tăng cường đầu tư kinh phí từ đâu để đáp ứng yêu cầu nhiệm vụ? - Tăng cường đầu tư kinh phí từ nguồn ngân sách Nhà nước và từ các chương trình mục tiêu quốc gia, từ các nguồn hỗ trợ, đáp ứng yêu cầu nhiệm vụ của Trung tâm và Chi nhánh.
    2. Định hướng đến năm 2015:
    Công tác lập hồ sơ hiện hành và giao nộp hồ sơ vào lưu trữ cơ quan đã có những chuyển biến gì trong thời gian qua? Phần I.
    a) Lập hồ sơ hiện hành, thu thập, bổ sung tài liệu vào lưu trữ cơ quan Công tác lập hồ sơ hiện hành và giao nộp hồ sơ, tài liệu vào lưu trữ cơ quan của các Bộ, ngành trung ương đã có những chuyển biến tích cực. Nhiều cơ quan đã tổ chức thực hiện khá tốt chế độ lập hồ sơ hiện hành và giao nộp hồ sơ, tài liệu vào lưu trữ cơ quan như: Văn phòng Chính phủ, Văn phòng Quốc hội, Văn phòng Chủ tịch nước, Tập đoàn Bưu chính Viễn thông Việt Nam, Bộ Kế hoạch và Đầu tư, Kiểm toán Nhà nước…Kết quả tài liệu thu vào lưu trữ cơ quan không chỉ tăng về khối lượng mà còn được cải thiện đáng kể về chất lượng.
    Những cơ quan, tổ chức có thành tích nổi bật trong việc thu tài liệu vào lưu trữ cơ quan 7 năm qua là: Bộ Quốc phòng (2.915m), Tập đoàn Dầu khí Việt Nam (1.800m), Thông tấn xã Việt Nam (860m), Viện Kiểm sát nhân dân tối cao (49.000 hồ sơ), Văn phòng Chính phủ (9.626 cặp)… Riêng năm 2007, Tập đoàn Dầu khí Việt Nam thu được 850 m, Văn phòng Chính phủ 3.372 hồ sơ, Bộ Công an 162 m và 71 cuộn ...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • warmup_ratio: 0.1
  • load_best_model_at_end: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss
0.0718 200 0.0673 0.0142
0.1436 400 0.0245 0.0125
0.2154 600 0.03 0.0157
0.2873 800 0.033 0.0295
0.3591 1000 0.0374 0.0214
0.4309 1200 0.0304 0.0308
0.5027 1400 0.0324 0.0147
0.5745 1600 0.0326 0.0277
0.6463 1800 0.0317 0.0223
0.7181 2000 0.0323 0.0218
0.7899 2200 0.029 0.0240
0.8618 2400 0.0271 0.0205
0.9336 2600 0.0227 0.0175
1.0054 2800 0.0291 0.0212
1.0772 3000 0.0196 0.0273
1.1490 3200 0.014 0.0202
1.2208 3400 0.012 0.0193
1.2926 3600 0.0093 0.0230
1.3645 3800 0.0109 0.0153
1.4363 4000 0.0061 0.0227
1.5081 4200 0.0075 0.0246
1.5799 4400 0.0067 0.0212
1.6517 4600 0.0103 0.0180
1.7235 4800 0.0095 0.0170
1.7953 5000 0.0075 0.0177
1.8671 5200 0.0071 0.0176
1.9390 5400 0.0059 0.0166
2.0108 5600 0.0069 0.0151
2.0826 5800 0.0052 0.0162
2.1544 6000 0.0043 0.0153
2.2262 6200 0.0044 0.0170
2.2980 6400 0.0025 0.0173
2.3698 6600 0.0028 0.0154
2.4417 6800 0.0017 0.0150
2.5135 7000 0.0025 0.0166
2.5853 7200 0.0028 0.0150
2.6571 7400 0.0022 0.0129
2.7289 7600 0.0035 0.0136
2.8007 7800 0.0022 0.0129
2.8725 8000 0.0021 0.0132
2.9443 8200 0.0026 0.0135
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.11.10
  • Sentence Transformers: 3.3.1
  • Transformers: 4.47.0
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.2.1
  • Datasets: 3.0.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
31
Safetensors
Model size
568M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for strongpear/M3-retriever-LAW

Base model

BAAI/bge-m3
Finetuned
(185)
this model