SentenceTransformer based on BAAI/bge-m3

This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: BAAI/bge-m3
Maximum Sequence Length: 1024 tokens
Output Dimensionality: 1024 tokens
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 1024, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("seongil-dn/bge-m3-kor-retrieval-451949-bs64-science-50")
# Run inference
sentences = [
    '이수화 상에서는 물과 반응하여 페로브스카이트 소재의 분해를 야기하는 원인이 뭐야?',
    '<h1>2. 환경적 요인에 의한 페로브카이트 소재 불안정성</h1><h2>2.1. 수분에 의한 안정성 영향</h2><p>유기 페로브스카이트인  $\\mathrm{MAPbI}_{3}$  의  $\\mathrm{MA}^{+}$ 와  $\\mathrm{I}^{-}$ 는 약한 결합을 하고 있어 이수화 상 (dihydrate phase)에서는 물과 반응하여 페로브스카이트 소재의 분해를 야기한다. 이는  $\\mathrm{MAPbI}_{3}$  와 물이 반응하여 생성된 이수화 화합물 (\\( \\mathrm{MAPbI}_{3} \\cdot \\mathrm{H}_{2} \\mathrm{O} \\)) 이  $\\mathrm{CH}_{3} \\mathrm{NH}_{2}$ ,  $\\mathrm{HI}$ ,  $\\mathrm{PbI}_{2}$  로 분해되고, 생성된  $\\mathrm{CH}_{3} \\mathrm{NH}_{2}$  와  $\\mathrm{HI}$  는 물에 녹아 결국 고상의  $\\mathrm{PbI}_{2}$  만 남는 것으로 설명할 수 있다. </p><p>무기 페로브스카이트는 수분에 의한 재결정화 및 표면 결합 리간드의 손실과 분해로 인해 표면에 트랩 준위가 증가하여 발광효율이 감소한다. 또한 페로브 스카이트 소재는 빛이 없는 상황에서도 물에 의해 소재가 분해되어 안정성이 감소한다. </p><h2>2.2. 빛에 의한 안정성 영향</h2><p>페로브스카이트 소재가 장시간 빛에 노출되는 경우 광-생성 전하 (photo-generated carrier)가 페로브스카이트 소재 표면으로 확산되어 이온성 표면 리간드와 결합한다. 이 과정 중에 몇 개의 리간드들은 용매에 녹아, 보호되지 않은 면을 중심으로 페로브스카이트 소재끼리 응집하여 발광 효율이 감소한다. 또한 페로브스카이트 소재의 응집 및 리간드 손실로 인해 트랩 준위가 증가하여 광학적 특성이 현저히 감소된다. pc-LED는 실생활에서 장시간 빛에 노출되기때문에 빛에 의한 발광 감소 및 소재 안정성 감소는 고연색 발광을 필요로 하는 pc-LED의 적용에 문제가 된다. </p><h2>2.3. 산소에 의한 안정성 영향</h2><p>페로브스카이트 소재는 빛에 노출된 경우에만 산소와 반응하며 특히 광-생성 전하를 가진 페로브스카이트 소재는 산소 분자의 영향을 받기 쉽다. 산소 분자가 격자로 확산되어 공공 결함 (vacancy)을 채우게 되고 광-생성 전자가 전도대에, 정공이 가전자대에 생성된다. 페로브스카이트 소재와 산소가 반응해  $\\mathrm{O}^{2-}$  가 생성되어  $\\mathrm{MAPbI}_{3}$  가  $\\mathrm{PbI}_{2}$ ,  $\\mathrm{H}_{2} \\mathrm{O}$ ,  $\\mathrm{I}_{2}$ ,  $\\mathrm{CH}_{3} \\mathrm{NH}_{2}$  로 분해된다. 이러한 광-산화 (photo-oxidation) 과정으로 페로브스카이트 소재가 분해되어 안정성이 감소한다. </p><h2>2.4. 열에 의한 안정성 영향</h2><p>열중량분석 (TGA) 분석으로 확인한 페로브스카이트 소재는 수분과 산소가 없을 때  $\\mathrm{CsPbX}_{3}$  는  $500{ }^{\\circ} \\mathrm{C}$ ,\\( \\mathrm{MAPbX}_{3} \\) 는  $220{ }^{\\circ} \\mathrm{C}$  까지 구조를 유지할 수 있다. 유 · 무기 페로브스카이트는 열에 의해 비교적 높은 안정성을 가지고 있지만 고온에서 페로브스카이트 소재가 수분과 산소에 반응하면 구조 분해가 더 가속화되어 안정성이 급격히 감소한다. </p><p>또한 고온에서 발광 효율이 감소하는데 이는 열적으로 활성화된 할로겐 공공 결함에 의해  $\\mathrm{MAPbBr}_{3}$  는\\( 100{ }^{\\circ} \\mathrm{C} \\) 이상의 온도에서 발광을 거의 보이지 않으며  $\\mathrm{CsPbBr}_{3}$  는 약  $80$  의 발광 손실을 보이는 것으로 확인할 수 있다. </p>',
    '효율이 높고 광안정성이 우수한 페로브스카이트 태양전지 소재/소자 기술 개발 - 고효율(21.2%)과 고안정성(1,000시간 유지)을 모두 만족하는 페로브스카이트 태양전지용 핵심 소재 및 저비용 제조 기술 개발-\n□ 이번 연구에서는 이전 연구성과(구조, 공정, 신조성 기술)를 기반*으로 이종접합** 페로브스카이트 태양전지의 고효율화(21.2%)와 높은 광안정성(자외선 포함한 광조사에서 1,000시간 이상 안정한 효율 유지)을 모두 만족하는 광전극 소재를 저온(기존 900 ℃이상 고온 → 200 ℃이하) 에서 합성하는 방법을 개발하였다. *【 연구진 이전 연구성과 】\n・무-유기 하이브리드 페로브스카이트 태양전지 플랫폼 구조 기술 개발 (Nature Photonics 2013.5) \n・매우 균일하고 치밀한 페로브스카이트 박막 제조 신규 용액 공정 기술 개발 (Nature Materials 2014.7) \n・고효율을 위한 페로브스카이트 결정상 안정화 신조성 기술 개발 (Nature 2015.1) \n・고품질 페로브스카이트 박막 형성을 위한 신규 공정 기술 개발 (Science 2015.6) 등\n** 이종접합 : 같은 소재간의 접합인 동종 접합과 달리 다른 종류의 소재간의 접합을 의미, 페로브스카이트는 무기물, 유기물, 무/유기 혼성물 간의 이종접합을 이룸.\nㅇ 더 나아가서 연속적이며 대량 생산 공정이 가능한“핫-프레싱 (hot-pressing) 공법*”을 새롭게 제안하여, 고효율 / 고안정성 / 저비용의 방법으로 페로브스카이트 태양전지를 제조하는 새로운 태양전지제조 방법론을 제안하였다. * 핫-프레싱 공법 : 온도와 압력을 가하여 두 물체를 단단히 점착 시키는 방법',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Hyperparameters

Non-Default Hyperparameters

per_device_train_batch_size: 64
learning_rate: 3e-05
num_train_epochs: 1
max_steps: 50
warmup_ratio: 0.05
fp16: True
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: no
prediction_loss_only: True
per_device_train_batch_size: 64
per_device_eval_batch_size: 8
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 3e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 1
max_steps: 50
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.05
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: True
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: True
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: False
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
dispatch_batches: None
split_batches: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
eval_use_gather_object: False
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional

Training Logs

Epoch	Step	Training Loss
0.0156	1	0.9276
0.0312	2	0.9561
0.0469	3	0.9631
0.0625	4	0.8466
0.0781	5	0.7015
0.0938	6	0.6136
0.1094	7	0.4911
0.125	8	0.5431
0.1406	9	0.5274
0.1562	10	0.5033
0.1719	11	0.3905
0.1875	12	0.3733
0.2031	13	0.435
0.2188	14	0.3547
0.2344	15	0.3945
0.25	16	0.3612
0.2656	17	0.3449
0.2812	18	0.3362
0.2969	19	0.3388
0.3125	20	0.3769
0.3281	21	0.3469
0.3438	22	0.3796
0.3594	23	0.2919
0.375	24	0.3072
0.3906	25	0.3036
0.4062	26	0.3109
0.4219	27	0.2839
0.4375	28	0.358
0.4531	29	0.2652
0.4688	30	0.2915
0.4844	31	0.2981
0.5	32	0.3788
0.5156	33	0.2329
0.5312	34	0.2945
0.5469	35	0.2907
0.5625	36	0.305
0.5781	37	0.3176
0.5938	38	0.3345
0.6094	39	0.2549
0.625	40	0.3219
0.6406	41	0.3143
0.6562	42	0.2828
0.6719	43	0.2766
0.6875	44	0.2991
0.7031	45	0.3411
0.7188	46	0.2805
0.7344	47	0.3162
0.75	48	0.2731
0.7656	49	0.3373
0.7812	50	0.2827

Framework Versions

Python: 3.10.12
Sentence Transformers: 3.2.1
Transformers: 4.44.2
PyTorch: 2.3.1+cu121
Accelerate: 1.1.1
Datasets: 2.21.0
Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

seongil-dn
/

bge-m3-kor-retrieval-451949-bs64-science-50