matunderstars's picture
Add new SentenceTransformer model
ddd8354 verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:200
  - loss:MultipleNegativesRankingLoss
base_model: neuralmind/bert-large-portuguese-cased
widget:
  - source_sentence: Solicitação de manutenção nos conectores de rede
    sentences:
      - >-
        Para manutenção dos conectores de rede, encaminhe a solicitação ao setor
        de TI da UFES em https://atendimento.ufes.br, especificando o
        laboratório e os problemas encontrados.
      - >-
        Acesse o site da Prograd em https://prograd.ufes.br para mais
        informações conforme o edital vigente.
      - >-
        Ao identificar sua convocação no SouGov.br (na funcionalidade Minha
        Saúde - Exames Periódicos), o servidor irá decidir sobre a realização do
        exame periódico, conforme as etapas a seguir: 1) Visualizar exames e
        avançar; 2) Informar se concorda ou não em realizar os exames médicos
        periódicos, clicar em Salvar e Avançar; 3) Caso o servidor tenha
        concordado em realizar os exames, ele deverá clicar em Emitir Guia,
        imprimi-las e Avançar para preencher formulário de Anamnese (1.
        Histórico Ocupacional; 2. Antecedentes Pessoais; 3. Antecedentes
        Familiares; 4. Hábitos Pessoais; e 5. Condições Atuais de Trabalho) e
        finalizar o processo.
  - source_sentence: Quero falar com um atendente humano, pessoa real
    sentences:
      - >-
        Envie um e-mail para [email protected] solicitando a
        alteração dos dados bancários.
      - >-
        Para dificuldades de acesso à rede Eduroam, verifique as configurações
        de rede e as credenciais fornecidas. Caso persista, contate o suporte de
        TI da UFES para assistência.
      - >-
        Acesse nosso chat para falar com um atendente humano:
        https://chat.google.com/room/AAAAHqHLj6c?cls=7
  - source_sentence: Como realizar o cadastro no Proaes?
    sentences:
      - >-
        Acesse o site da Proaeci em https://proaeci.ufes.br/editais para
        verificar se há algum edital vigente para o semestre.
      - >-
        Acesse o manual em
        https://gov.br/compras/pt-br/centrais-de-conteudo/manuais/manual-etp-digital.
      - >-
        Acesse
        https://compras.ufes.br/inclusao-de-produto-no-catalogo-de-materiais.
  - source_sentence: Como posso solicitar manutenção de bens?
    sentences:
      - >-
        A solicitação de manutenção de bens deve ser feita pelo sistema de
        gestão patrimonial.
      - >-
        Por favor, contate o suporte técnico detalhando o problema do
        equipamento para diagnóstico e reparo.
      - >-
        Sou especializado em responder perguntas frequentes relacionadas a UFES
        sobre a Diretoria de Suporte Administrativo - DSAN.
  - source_sentence: Como solicitar atendimento social online?
    sentences:
      - >-
        Com a senha única, siga o tutorial correspondente em
        https://sti.ufes.br/eduroam.
      - Envie um e-mail para [email protected] para agendar o atendimento.
      - >-
        Envie um ofício via documento avulso para a DRMN, conforme manual
        disponível em https://drm.saomateus.ufes.br/manuais-0.
datasets:
  - matunderstars/ufes-qa-data
pipeline_tag: sentence-similarity
library_name: sentence-transformers

SentenceTransformer based on neuralmind/bert-large-portuguese-cased

This is a sentence-transformers model finetuned from neuralmind/bert-large-portuguese-cased on the train and test datasets. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("matunderstars/ufes-qa-embedding-finetuned-bert")
# Run inference
sentences = [
    'Como solicitar atendimento social online?',
    'Envie um e-mail para [email protected] para agendar o atendimento.',
    'Envie um ofício via documento avulso para a DRMN, conforme manual disponível em https://drm.saomateus.ufes.br/manuais-0.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Datasets

train

  • Dataset: train at 02bfedf
  • Size: 100 training samples
  • Columns: question and answer
  • Approximate statistics based on the first 100 samples:
    question answer
    type string string
    details
    • min: 5 tokens
    • mean: 12.81 tokens
    • max: 34 tokens
    • min: 11 tokens
    • mean: 47.79 tokens
    • max: 272 tokens
  • Samples:
    question answer
    Problemas para acessar a internet Para problemas de acesso à internet, verifique as configurações de rede. Se o problema continuar, entre em contato com a equipe de TI para suporte.
    Como solicitar o tombamento de um bem extraorçamentário? Envie a documentação via https://protocolo.ufes.br. Manual em https://drm.saomateus.ufes.br/manuais-0.
    Onde enviar dúvidas sobre o sistema de registro de preços? Envie um e-mail para [email protected].
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

test

  • Dataset: test at 02bfedf
  • Size: 100 training samples
  • Columns: question and answer
  • Approximate statistics based on the first 100 samples:
    question answer
    type string string
    details
    • min: 8 tokens
    • mean: 11.65 tokens
    • max: 21 tokens
    • min: 10 tokens
    • mean: 35.4 tokens
    • max: 78 tokens
  • Samples:
    question answer
    Como acessar os dados acadêmicos e administrativos? Acesse o Portal Administrativo em https://administrativo.ufes.br.
    Suporte técnico para notebook Para solicitar suporte técnico para notebooks institucionais, entre em contato com o setor de TI da UFES, detalhando o problema encontrado.
    Onde acessar o manual para utilizar o Portal Administrativo? Acesse https://drm.saomateus.ufes.br → Patrimônio → Manuais.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • num_train_epochs: 180
  • warmup_ratio: 0.1
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 180
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss
71.4286 500 0.1226
142.8571 1000 0.0

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.3.1
  • Transformers: 4.47.1
  • PyTorch: 2.5.1+cu121
  • Accelerate: 1.2.1
  • Datasets: 3.2.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}