SentenceTransformer based on BAAI/bge-m3

This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BAAI/bge-m3
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 1024 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("strongpear/M3-retriever-Wiki")
# Run inference
sentences = [
    'Quận Sông Bé được thành lập vào thời điểm nào và dựa trên cơ sở nào?',
    'Quận Sông Bé được thành lập theo Nghị định của Toàn quyền Đông Dương ngày 25 tháng 10 năm 1927 trên cơ sở đổi tên quận Phú Riềng (thuộc tỉnh Biên Hòa) và chuyển quận lị về Bu Kroai (nay thuộc xã Đức Hạnh, huyện Bù Gia Mập).\nNgày 20 tháng 5 năm 1933, cùng với việc chuyển quận lị Sông Bé về núi Bà Rá, quận Sông Bé được đổi tên thành quận Núi Bà Rá.\nQuận Núi Bà Rá được nâng cấp thành tỉnh Phước Long theo Sắc lệnh số 143-NV ngày 22 tháng 10 năm 1956 do Tổng thống Việt Nam Cộng hòa ký, chia Nam phần thành 22 tỉnh. Tỉnh lỵ tỉnh Phước Long đặt tại Phước Bình, về mặt hành chính thuộc xã Sơn Giang, quận Phước Bình (nay là khu vực trung tâm thị xã Phước Long). Địa bàn quận Sông Bé nay thuộc tỉnh Bình Phước.',
    'Mạng lưới sông rạch.\nToàn huyện có 355\xa0km kênh mương thủy lợi chính, gồm 80\xa0km kênh cấp I và 275\xa0km kênh cấp II, bình quân 1 ha đất canh tác có 12,62m kênh mương thủy lợi.\nDo nằm ven sông Cổ Chiên và có cù lao Hoà Minh – Long Hoà chạy dài ra sát cửa Cung Hầu nên huyện Châu Thành chịu ảnh hưởng chế độ bán nhật trìêu của biển Đông, thông qua đoạn sông Cổ Chiên vào các hệ thống sông rạch lớn như: Láng Thé – Ba Si – Ô Chát, sông Trà Vinh – Kinh Thống Nhất hệ Tầm Phương, sông Bãi Vàng – Vinh Kim. Ngoài ra, do yêu cầu tiếp ngọt với hai cống ngăn mặn Đa Lộc, Hiệp Hòa vào mùa khô, nguồn nước từ Cầu Quan (sông Hậu) được đưa sang kinh Thống Nhất và Trà Vinh. Trong ngày nước lên xuống hai lần, mỗi tháng có 2 lần triều cường sau ngày 1 và ngày 15 âl và 2 lần triều kèm sau ngày 7 và 23 âl (từ 2 đến 3 ngày), biên độ triều hàng ngày rất lớn, nhất là các khu vực gần cửa sông.\nBiên độ tắt dần khi vào nội đồng, đặc biệt vào mùa triều cường (tháng 10,12 dương lịch) đối với vùng kinh Thông Nhất qua ngọn Ô Chát chịu ảnh hưởng chung của sông Cổ Chiên và sông Hậu, biên độ triều hàng ngày nhỏ và hầu như không đáng kể vào thời kỳ triều cường nhất trong năm. Một số vùng thấp (Thanh Mỹ – Đa Lộc) có thời gian nước trên đồng không rút được, dù độ ngập không lớn.\nVào mùa khô, triều cường và gió chướng đã đưa nước mặn xâm nhập vào nội đồng, độ mặn trung bình thay đổi từ 2,24‰ -9,96‰ từ cuối tháng 1 đến tháng 6, tuy nhiên tháng tư có độ mặn cao nhất trên 18‰ (Hưng Mỹ). Các cửa sông gần biển thì độ mặn càng cao. Do dự trữ nước nội đồng và nguồn bổ sung từ trên xuống, từ sông Hậu sang nên độ mặn giảm dần khi vào nội đồng.\nHành chính.\nHuyện Châu Thành có 14 đơn vị hành chính cấp xã trực thuộc, bao gồm thị trấn Châu Thành và 13 xã: Đa Lộc, Hòa Lợi, Hòa Minh, Hòa Thuận, Hưng Mỹ, Long Hòa, Lương Hòa, Lương Hòa A, Mỹ Chánh, Nguyệt Hóa, Phước Hảo, Song Lộc, Thanh Mỹ.\nLịch sử.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 148,500 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 7 tokens
    • mean: 19.77 tokens
    • max: 40 tokens
    • min: 7 tokens
    • mean: 408.51 tokens
    • max: 699 tokens
  • Samples:
    anchor positive
    Adidas đã thực hiện những bước tiến nào trong lĩnh vực giày thể thao từ năm 2005 đến 2006? Vào ngày 25 tháng 11 năm 2005, Adidas đã phát hành phiên bản mới của Adidas 1 với phạm vi đệm tăng lên, cho phép giày trở nên mềm hơn hoặc cứng hơn và một động cơ mới có mô-men xoắn lớn hơn 153%.
    Vào ngày 11 tháng 4 năm 2006, Adidas công bố hợp đồng 11 năm để trở thành nhà cung cấp quần áo chính thức của NBA. Công ty đã và đang sản xuất áo thi đấu và các sản phẩm của NBA, NBDL và WNBA cũng như các phiên bản màu đội của giày bóng rổ "Superstar". Thỏa thuận này (trị giá hơn 400 triệu đô la) đã tiếp quản thỏa thuận Reebok trước đó đã được thực hiện vào năm 2001 trong 10 năm.
    Vào tháng 11 năm 2011, Adidas thông báo rằng họ sẽ mua lại thương hiệu biểu diễn thể thao hành động ngoài trời Five Ten thông qua một thỏa thuận mua cổ phần. Tổng giá mua là 25 triệu đô la Mỹ bằng tiền mặt khi đóng cửa.
    Những năm gần đây.
    Vào cuối năm 2012, Adidas đã báo cáo doanh thu cao nhất từ ​​trước đến nay và Giám đốc điều hành Herbert Hainer bày tỏ sự lạc quan cho năm tới. Adidas hiện có trụ sở công ty toàn cầu...
    Tại sao Hồ Nhất Đao chết và điều gì xảy ra với vợ của ông? Không may Miêu Nhân Phụng (cầm đao của Hồ Nhất Đao) làm bị thương Hồ Nhất Đao, thế là Hồ Nhất Đao chết vì bị độc, vợ của Hồ Nhất Đao mới sinh được một đứa con trai - là nhân vật chính Hồ Phỉ - cũng tự sát theo chồng. Bi kịch thù hận bốn họ tạm thời ngưng lại trong sự hối hận của Miêu Nhân Phụng, ông chôn cất vợ chồng Hồ Nhất Đao và hàng năm tế bái, coi họ là anh em, suốt đời ân hận vì đã nỡ tay hại chết tri kỷ.
    Hồ Phỉ hóa giải ân oán.
    Đoạn này lẫn lộn nội dung Tuyết Sơn Phi Hồ và Phi Hồ Ngoại Truyện
    Khi Hồ Nhất Đao chết, bọn Điền Quy Nông muốn trừ hậu họa nên lục tìm giết đứa bé, nhưng Bình A Tứ (một người hầu nghèo khổ trong quán trước đó được Hồ Nhất Đao cứu giúp, chịu ơn lớn của Hồ Nhất Đao) đã nhanh tay cứu mang đứa bé đi. Thầy lang Diêm Cơ định cướp đao phổ nhưng không thành, chỉ giật được vài trang đầu sau đó đi tu luyện thành võ công cao cường lấy hiệu là Bảo Thụ.
    Bình A Tứ nuôi lớn Hồ Phỉ, Hồ Phỉ luyện thành võ công cao cường, quay lại tìm hiểu bí mật cái chết của cha mẹ (chi t...
    Thế hệ thứ nhất của RAF đã thực hiện những hoạt động gì trong giai đoạn 1970-1972? Thế hệ thứ nhất.
    Thế hệ thứ nhất của RAF (Andreas Baader, Gudrun Ensslin, Holger Meins, Ulrike Meinhof, Jan-Carl Raspe và nhiều người khác) trong thời gian từ 1970 đến 1972 đã thực hiện nhiều vụ đánh cướp ngân hàng, đánh bom các cơ sở quân sự Mỹ, trong đó có sở tổng chỉ huy quân đội Mỹ tại Frankfurt am Main, và cơ quan nhà nước, qua đó đã có bốn người chết và trên 30 người bị thương. Trong tháng 6 năm 1972 những người nắm vai trò chủ chốt bị bắt giam: Andreas Baader, Holger Meins và Jan-Carl Raspe tại Frankfurt, Gudrun Ensslin tại Hamburg, Brigitte Mohnhaupt tại Tây Berlin và Ulrike Meinhof tại Hannover. Tháng 5 năm 1975 họ bị khởi tố và trong tháng 4 năm 1977 sau 192 ngày xử án bị tuyên án tù chung thân vì tội giết người ngoài những tội khác.
    Trong nhà giam, nhóm người này khiếu nại về điều kiện giam giữ được thắt chặt như là tra tấn bằng cách cô lập và yêu cầu hủy bỏ điều này cũng như là công nhận quy chế tù nhân chiến tranh và những điều khác. Để tăng sức ép cho yêu cầu, họ đã nhiều...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 1,500 evaluation samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 7 tokens
    • mean: 19.84 tokens
    • max: 48 tokens
    • min: 7 tokens
    • mean: 410.74 tokens
    • max: 657 tokens
  • Samples:
    anchor positive
    Pennsylvania được gọi là gì và có những đặc điểm gì liên quan đến chính quyền? Ngày nay, hai thành phố lớn của tiểu bang là —Philadelphia, quê hương của chuông Liberty, sảnh Independence, là một khu đô thị sầm uất, và Pittsburgh, một cảng sông bận rộn bên trong lục địa và là một trung tâm lớn cho giáo dục và các tiến bộ kỹ thuật. Dãy núi Pocono và Delaware Water Gap cung cấp các hoạt động giải trí phổ thông.
    Pennsylvania là một "Commonwealth", mặc cho nó có State Treasury và State Police. Massachusetts, Virginia và Kentucky cũng được biết như là "Commonwealth".
    Chiến hạm USS "Pennsylvania", bị hư hỏng tại Trân Châu Cảng "(Pearl Harbor)", được đặt tên để vinh danh tiểu bang này, cũng như là một vài chiến hạm hải quân khác. Nó được sửa chữa lại Sun Ship Yard & Dry Dock trước đây ở Chester, Pennsylvania.
    Romaja là gì và nó có liên quan như thế nào đến việc ghi tiếng Hàn Quốc? Romaja hay cách ghi tiếng Hàn Quốc (Triều Tiên) bằng chữ latinh là các phương pháp ghi tiếng Triều Tiên bằng chữ cái Latinh. Romaja có nghĩa là "La Mã tự" hay "chữ La Mã". Romaja quốc ngữ là phương pháp nhiều người thường dùng nhất.
    "Romaja" không được nhầm lẫn với "romanization (La-tinh hóa)". Cách viết thứ nhất có thể được áp dụng cho bất kỳ cách sử dụng chữ cái Latinh nào trong văn bản tiếng Hàn - cho dù đối với các từ hoặc tên tiếng Hàn hoặc không phải tiếng Hàn Quốc - trong khi cách viết thứ hai đề cập đến việc viết các từ tiếng Hàn bằng hệ thống chữ Latinh: hoặc là chữ La tinh hóa các từ riêng lẻ trong văn bản tiếng Hàn, hoặc viết toàn bộ văn bản tiếng Hàn bằng hệ thống chữ Latinh.
    Hệ thống.
    Nhiều lược đồ La tinh hóa đang được sử dụng phổ biến:
    Tây Sơn có vai trò gì trong địa lý của Bắc Kinh? Địa lý.
    Địa hình.
    Thành phố Bắc Kinh nằm trên vùng đất thấp và bằng phẳng, với độ cao thường nằm trong khoảng 40-60m trên mực nước biển. Điểm cao nhất trong khu thành cổ là đỉnh của Cảnh Sơn với độ cao là 88,35 m, từ đây có thể nhìn toàn cảnh Tử Cấm thành. Đỉnh của Vạn Thọ Sơn (万寿山) thuộc Di Hòa Viên có độ cao . Vùng đồng bằng từ Bắc Kinh kéo dài xa về phía đông đến Sơn Hải quan bên bờ Bột Hải và xa về phía nam đến Nam Kinh.
    Ở phía tây Bắc Kinh có Tây Sơn, có thể nhìn thấy núi này từ nội thị vào những ngày quang đãng. Tây Sơn tạo thành sườn núi phía đông của Thái Hành Sơn- dãy núi chạy theo chiều bắc-nam và tạo thành xương sống phía tây của Hà Bắc. Tây Sơn bao trùm gần như toàn bộ các quận Phòng Sơn và Môn Đầu Câu ở phía tây thành phố. Đông Linh Sơn (东灵山, cao ), một đỉnh núi của Tây Sơn nằm trên ranh giới với Hà Bắc, là đỉnh cao nhất tại Bắc Kinh. Đỉnh này nằm cách trung tâm thành phố . Tây Sơn cũng được biết đến với các đồng cỏ núi cao và các hẻm núi sông, bao gồm Thập Độ (十渡). Vùng c...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • bf16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss
0.0431 200 0.0372 0.0122
0.0862 400 0.0226 0.0162
0.1293 600 0.0305 0.0181
0.1724 800 0.0351 0.0205
0.2155 1000 0.0326 0.0171
0.2586 1200 0.0289 0.0156
0.3017 1400 0.028 0.0169
0.3448 1600 0.0273 0.0199
0.3878 1800 0.0216 0.0180
0.4309 2000 0.0252 0.0122
0.4740 2200 0.0213 0.0138
0.5171 2400 0.0254 0.0142
0.5602 2600 0.0202 0.0155
0.6033 2800 0.0168 0.0145
0.6464 3000 0.0176 0.0123
0.6895 3200 0.0212 0.0123
0.7326 3400 0.0166 0.0102
0.7757 3600 0.0181 0.0102
0.8188 3800 0.0158 0.0086
0.8619 4000 0.0151 0.0090
0.9050 4200 0.0134 0.0095
0.9481 4400 0.012 0.0093
0.9912 4600 0.0134 0.0090

Framework Versions

  • Python: 3.9.20
  • Sentence Transformers: 3.3.1
  • Transformers: 4.45.2
  • PyTorch: 2.4.0+cu121
  • Accelerate: 1.0.1
  • Datasets: 3.0.0
  • Tokenizers: 0.20.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
32
Safetensors
Model size
568M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for strongpear/M3-retriever-Wiki

Base model

BAAI/bge-m3
Finetuned
(192)
this model