matunderstars's picture
Add new SentenceTransformer model
5d52d7d verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:200
  - loss:MultipleNegativesRankingLoss
base_model: sentence-transformers/all-MiniLM-L12-v2
widget:
  - source_sentence: >-
      Como solicitar materiais registrados nas atas de registro de preços
      vigentes?
    sentences:
      - >-
        Siga os procedimentos em
        https://portaladministrativo.ufes.br/utilizacao-de-registro-de-precos-existente.
      - >-
        Para solicitar uma compra, é necessário preencher o formulário de
        solicitação e enviá-lo ao setor de compras.
      - Siga as instruções em https://senha.ufes.br/site/alteraSenha.
  - source_sentence: Como registrar atestado de saúde?
    sentences:
      - >-
        Acesse nosso chat para falar com um atendente humano:
        https://chat.google.com/room/AAAAHqHLj6c?cls=7
      - >-
        Computadores lentos podem necessitar de manutenção ou atualização de
        hardware. Abra um chamado em https://atendimento.ufes.br.
      - >-
        Realize o registro pelo aplicativo SouGov (Menu > Atestado de Saúde >
        Incluir > Selecionar arquivo no dispositivo) ou pelo Portal Sigepe em
        Gestão de Pessoas > Minha Saúde > Atestado Médico.
  - source_sentence: Como obter suporte para equipamentos de informática pessoal?
    sentences:
      - >-
        Consulte tutoriais em https://dtin.saomateus.ufes.br ou entre em contato
        via [email protected].
      - >-
        Envie um e-mail para [email protected] para agendar atendimento
        social na DASAS.
      - >-
        Para manutenção dos conectores de rede, encaminhe a solicitação ao setor
        de TI da UFES em https://atendimento.ufes.br, especificando o
        laboratório e os problemas encontrados.
  - source_sentence: Como solicitar o tombamento de um bem extraorçamentário?
    sentences:
      - >-
        Envie a documentação via https://protocolo.ufes.br. Manual em
        https://drm.saomateus.ufes.br/manuais-0.
      - >-
        Envie um e-mail para [email protected] solicitando a
        alteração dos dados bancários.
      - Envie um e-mail com detalhes e fotos relevantes.
  - source_sentence: Como realizar o cadastro no Proaes?
    sentences:
      - >-
        Informações sobre pagamento de notas fiscais a fornecedor entrar em
        contato com a DCFN (Divisão de Contabilidade e Finanças)


        E-mail institucional do setor: [email protected]


        Telefones: 3312-1517 e 3312-1518


        Demais informações acesse o site:
        https://www.gestaoadministrativa.saomateus.ufes.br/apresentacao
      - >-
        Acesse o site da Proaeci em https://proaeci.ufes.br/editais para
        verificar se há algum edital vigente para o semestre.
      - >-
        Envie um ofício via documento avulso para a DRMN, conforme manual
        disponível em https://drm.saomateus.ufes.br/manuais-0.
datasets:
  - matunderstars/ufes-qa-data
pipeline_tag: sentence-similarity
library_name: sentence-transformers

SentenceTransformer based on sentence-transformers/all-MiniLM-L12-v2

This is a sentence-transformers model finetuned from sentence-transformers/all-MiniLM-L12-v2 on the train and test datasets. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("matunderstars/ufes-qa-embedding-finetuned-v2")
# Run inference
sentences = [
    'Como realizar o cadastro no Proaes?',
    'Acesse o site da Proaeci em https://proaeci.ufes.br/editais para verificar se há algum edital vigente para o semestre.',
    'Envie um ofício via documento avulso para a DRMN, conforme manual disponível em https://drm.saomateus.ufes.br/manuais-0.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Datasets

train

  • Dataset: train at 02bfedf
  • Size: 100 training samples
  • Columns: question and answer
  • Approximate statistics based on the first 100 samples:
    question answer
    type string string
    details
    • min: 7 tokens
    • mean: 18.35 tokens
    • max: 45 tokens
    • min: 14 tokens
    • mean: 47.62 tokens
    • max: 128 tokens
  • Samples:
    question answer
    Formatação de computador A formatação de computadores deve ser solicitada diretamente ao suporte de TI, que avaliará a necessidade de backup e reinstalação dos sistemas operacionais.
    Como solicitar o recolhimento de um bem patrimonial? Envie um ofício via documento avulso para a DRMN, conforme manual disponível em https://drm.saomateus.ufes.br/manuais-0.
    Como solicitar pagamento de ajuda de custos à estudante? Cabe à Secretaria Única de Graduação – SUGRAD/CEUNES instruir devidamente o processo digital, encaminhar para análise e aprovação da Direção do Ceunes, que se estiver de acordo, remeterá o mesmo à DCFN (Divisão de Contabilidade e Finanças) para efetivação do pagamento.
    Informações sobre pagamento de ajuda de custos à estudantes entrar em contato com a DCFN (Divisão de Contabilidade e Finanças).

    E-mail institucional: [email protected].

    Telefones: 3312-1517 e 3312-1518.

    Demais informações acesse o site: https://www.gestaoadministrativa.saomateus.ufes.br/apresentacao
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

test

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • num_train_epochs: 300
  • warmup_ratio: 0.1
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 300
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss
71.4286 500 0.1318
142.8571 1000 0.0001
214.2857 1500 0.0
285.7143 2000 0.0

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.3.1
  • Transformers: 4.46.3
  • PyTorch: 2.5.1+cu121
  • Accelerate: 1.1.1
  • Datasets: 3.2.0
  • Tokenizers: 0.20.3

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}