SentenceTransformer based on BSC-LT/mRoBERTa

This is a Sentence Transformers embeddings model finetuned from BSC-LT/mRoBERTa with projecte-aina/RAG_Multilingual dataset for use in RAG applications. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Original Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BSC-LT/mRoBERTa
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("crodri/nRoBERTA_RAG_EMBEDDINGS")
# Run inference
sentences = [
    "Instruct: Què ataca directament el porc formiguer?\nContext: Com els óssos formiguers i els pangolins, el porc formiguer ha desenvolupat adaptacions notables al seu estil d'alimentació. Ataca directament nius de formigues i tèrmits, amb una llengua molt llarga i unes dents especialment modificades. L'aspecte del porc formiguer sembla combinar orelles de conill, un musell de porc i una cua de cangur. Utilitza les seves grans urpes en forma de pala per excavar caus on refugiar-se, que després són utilitzats per una multitud d'animals una vegada el porc formiguer els ha abandonat.",
    "El porc formiguer ataca directament nius de formigues i tèrmits, gràcies a la seva llengua molt llarga i unes dents especialment adaptades per a aquesta finalitat. Aquest animal ha desenvolupat adaptacions notables per a la seva dieta, que consisteix a atacar directament els nius d'aquests insectes.",
    'Els adjectius llatins que acaben en -er formen el seu superlatiu utilitzant les desinències -errimus, -errima, -errimum. Aquestes desinències es declinen com un adjectiu de tema en vocal. Aquest ús és un vestigi de com es formava originalment el superlatiu en llatí.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 33,842 training samples
  • Columns: sentence_0 and sentence_1
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1
    type string string
    details
    • min: 58 tokens
    • mean: 239.24 tokens
    • max: 512 tokens
    • min: 9 tokens
    • mean: 128.82 tokens
    • max: 501 tokens
  • Samples:
    sentence_0 sentence_1
    Instruct: Where do most of the missionaries come from?
    Context: There are many missionary groups operating in the country, including Lutherans, Baptists, Catholics, Grace Brethren, and Jehovah's Witnesses. While these missionaries are predominantly from the United States, France, Italy, and Spain, many are also from Nigeria, the Democratic Republic of the Congo, and other African countries. Large numbers of missionaries left the country when fighting broke out between rebel and government forces in 2002–3, but many of them have now returned to continue their work.
    Most missionaries come from the United States. This is based on the information that includes the presence of various missionary groups in a particular context, with a significant number of them being from the United States, along with other countries such as France, Italy, Spain, Nigeria, and the Democratic Republic of the Congo.
    Instruct: On es publicà una glosa el 7 de setembre de 2014?
    Context: En la glosa que es publicà al full dominical del 7 de setembre de 2014 de la diòcesi de Solsona, (l'immediatament anterior a la celebració de la Diada) el bisbe Xavier Novell defensà el dret de decidir dels catalans i la legalitat de la consulta i cridà els fidels a votar, assegurant que Catalunya «compleix els elements que la doctrina social de l'Església indica sobre la realitat de la nació: cultura, llengua i història». Tot i que el bisbe no es posicionà sobre la direcció del vot, sí que va fer una crida als ciutadans a «no restar aliens a aquest procés» i els demanà que «amb esperit democràtic i pacífic, escolliu amb tranquil·litat de consciència aquella opció davant la consulta que cregueu millor per al bé de Catalunya». D'altra banda, Novell també defensà la llibertat de l'Església «respecte a qualsevol posicionament polític, com la legitimitat moral del dret a decidir dels ciutadans de Catalunya». Per aquestes ...
    La glosa es publicà a la secció dominical del diari de la diòcesi de Solsona el 7 de setembre de 2014. El bisbe Xavier Novell, en aquest article, defensà el dret de decidir dels catalans i la legalitat de la consulta, animant als fidels a votar. Novell argumentà que Catalunya compleix els criteris de cultura, llengua i història que la doctrina social de l'Església estableix per a una nació. Encara que el bisbe no donà suport a una opció concreta en la votació, instà als ciutadans a participar-hi amb un esperit democràtic i pacífic. A més, defensà la llibertat de l'Església en relació a qualsevol postura política i la legitimitat moral del dret a decidir dels ciutadans catalans. Aquestes declaracions van provocar que el Partit Popular demanés a la Conferència Episcopal Espanyola que actués contra el bisbe de Solsona, considerant les seves declaracions com a inacceptables. El bisbe de Girona, Francesc Pardo, també mostrà el seu suport a la consulta.
    Instruct: Com es coneixia a Robert Campin?
    Context: La Nativitat és una de les obres més destacades de Robert Campin, conegut com el Mestre de Flémalle; es troba al Museu de Belles Arts de Dijon des de 1928. Guarda algunes diferències amb altres obres d'aquesta temàtica: l'escena és captada de dia i hi apareixen les llevadores, Zelemi i Salomé, uns personatges que estaven descrits als Evangelis apòcrifs. A més de la Nativitat, l'obra representa l'adoració dels pastors que apareixen per la finestra, amb menys protagonisme del que és habitual; una altra cosa no habitual és la disposició del bou, d'esquena al Nen Jesús, en comptes d'escalfar-lo amb el seu alè. Josep no és aquí un personatge secundari, sinó que té un paper actiu, subjectant una espelma, un dels molts simbolismes que conté la imatge. El paisatge del fons és similar al d'obres contemporànies; és clarament de Flandes o Borgonya. L'obra va ser probablement un encàrrec del duc de Borgonya per a la cartoixa de Champmol.
    Robert Campin, també conegut com el Mestre de Flémalle, era un pintor flamenc del segle xv. Va ser un dels primers mestres de l'escola flamenca i va tenir una gran influència en el desenvolupament de l'estil realista i detallista que caracteritza aquesta escola. La seva obra "La Nativitat" és una de les seves obres més destacades i es troba al Museu de Belles Arts de Dijon des de 1928. Aquesta pintura representa la nativitat de Jesús amb algunes diferències notables respecte a altres obres d'aquest tema, com l'escena captada de dia i la presència de les llevadores, Zelemi i Salomé, personatges descrits als Evangelis apòcrifs. La figura de Josep també té un paper actiu en l'obra, subjectant una espelma, i el paisatge del fons és típic de Flandes o Borgonya. Es creu que "La Nativitat" va ser un encàrrec del duc de Borgonya per a la cartoixa de Champmol.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • num_train_epochs: 5
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Training Logs

Click to expand
Epoch Step Training Loss
0.0295 500 0.0249
0.0591 1000 0.0
0.0886 1500 0.0
0.1182 2000 0.0
0.1477 2500 0.0
0.1773 3000 0.0
0.2068 3500 0.0
0.2364 4000 0.0
0.2659 4500 0.0
0.2955 5000 0.0
0.3250 5500 0.0
0.3546 6000 0.0
0.3841 6500 0.0
0.4137 7000 0.0
0.4432 7500 0.0
0.4728 8000 0.0
0.5023 8500 0.0
0.5319 9000 0.0
0.5614 9500 0.0
0.5910 10000 0.0
0.6205 10500 0.0
0.6501 11000 0.0
0.6796 11500 0.0
0.7092 12000 0.0
0.7387 12500 0.0
0.7683 13000 0.0
0.7978 13500 0.0
0.8274 14000 0.0
0.8569 14500 0.0
0.8865 15000 0.0
0.9160 15500 0.0
0.9456 16000 0.0
0.9751 16500 0.0
1.0047 17000 0.0
1.0342 17500 0.0
1.0638 18000 0.0
1.0933 18500 0.0
1.1229 19000 0.0
1.1524 19500 0.0
1.1820 20000 0.0
1.2115 20500 0.0
1.2411 21000 0.0
1.2706 21500 0.0
1.3002 22000 0.0
1.3297 22500 0.0
1.3593 23000 0.0
1.3888 23500 0.0
1.4184 24000 0.0
1.4479 24500 0.0
1.4775 25000 0.0
1.5070 25500 0.0
1.5366 26000 0.0
1.5661 26500 0.0
1.5957 27000 0.0
1.6252 27500 0.0
1.6547 28000 0.0
1.6843 28500 0.0
1.7138 29000 0.0
1.7434 29500 0.0
1.7729 30000 0.0
1.8025 30500 0.0
1.8320 31000 0.0
1.8616 31500 0.0
1.8911 32000 0.0
1.9207 32500 0.0
1.9502 33000 0.0
1.9798 33500 0.0
2.0093 34000 0.0
2.0389 34500 0.0
2.0684 35000 0.0
2.0980 35500 0.0
2.1275 36000 0.0
2.1571 36500 0.0
2.1866 37000 0.0
2.2162 37500 0.0
2.2457 38000 0.0
2.2753 38500 0.0
2.3048 39000 0.0
2.3344 39500 0.0
2.3639 40000 0.0
2.3935 40500 0.0
2.4230 41000 0.0
2.4526 41500 0.0
2.4821 42000 0.0
2.5117 42500 0.0
2.5412 43000 0.0
2.5708 43500 0.0
2.6003 44000 0.0
2.6299 44500 0.0
2.6594 45000 0.0
2.6890 45500 0.0
2.7185 46000 0.0
2.7481 46500 0.0
2.7776 47000 0.0
2.8072 47500 0.0
2.8367 48000 0.0
2.8663 48500 0.0
2.8958 49000 0.0
2.9254 49500 0.0
2.9549 50000 0.0
2.9845 50500 0.0
3.0140 51000 0.0
3.0436 51500 0.0
3.0731 52000 0.0
3.1027 52500 0.0
3.1322 53000 0.0
3.1618 53500 0.0
3.1913 54000 0.0
3.2208 54500 0.0
3.2504 55000 0.0
3.2799 55500 0.0
3.3095 56000 0.0
3.3390 56500 0.0
3.3686 57000 0.0
3.3981 57500 0.0
3.4277 58000 0.0
3.4572 58500 0.0
3.4868 59000 0.0
3.5163 59500 0.0
3.5459 60000 0.0
3.5754 60500 0.0
3.6050 61000 0.0
3.6345 61500 0.0
3.6641 62000 0.0
3.6936 62500 0.0
3.7232 63000 0.0
3.7527 63500 0.0
3.7823 64000 0.0
3.8118 64500 0.0
3.8414 65000 0.0
3.8709 65500 0.0
3.9005 66000 0.0
3.9300 66500 0.0
3.9596 67000 0.0
3.9891 67500 0.0
4.0187 68000 0.0
4.0482 68500 0.0
4.0778 69000 0.0
4.1073 69500 0.0
4.1369 70000 0.0
4.1664 70500 0.0
4.1960 71000 0.0
4.2255 71500 0.0
4.2551 72000 0.0
4.2846 72500 0.0
4.3142 73000 0.0
4.3437 73500 0.0
4.3733 74000 0.0
4.4028 74500 0.0
4.4324 75000 0.0
4.4619 75500 0.0
4.4915 76000 0.0
4.5210 76500 0.0
4.5506 77000 0.0
4.5801 77500 0.0
4.6097 78000 0.0
4.6392 78500 0.0
4.6688 79000 0.0
4.6983 79500 0.0
4.7279 80000 0.0
4.7574 80500 0.0
4.7870 81000 0.0
4.8165 81500 0.0
4.8460 82000 0.0
4.8756 82500 0.0
4.9051 83000 0.0
4.9347 83500 0.0
4.9642 84000 0.0
4.9938 84500 0.0

Framework Versions

  • Python: 3.10.16
  • Sentence Transformers: 3.4.1
  • Transformers: 4.47.1
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.2.1
  • Datasets: 3.2.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
10
Safetensors
Model size
283M params
Tensor type
FP16
·
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.

Model tree for crodri/nRoBERTA_RAG_EMBEDDINGS

Base model

BSC-LT/mRoBERTa
Finetuned
(1)
this model