EllieChoi's picture
Upload folder using huggingface_hub
5f01bbb verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:10501
  - loss:CosineSimilarityLoss
base_model: klue/roberta-base
widget:
  - source_sentence: 선생님, 거실이랑 안방 중에 어디에 조명이 들어왔으면 하는거에요?
    sentences:
      - 네가 조명 켜고 싶은 곳이 안방이니 거실이니?
      - 네이버 메일이랑 엔드라이브를 연동하는건 금지야
      - 짐을 들고 오르내리는 것은 물론 맨몸으로도  빡셉니다.
  - source_sentence: 한적한 것이 도시 생활과는 전혀 달랐습니다.
    sentences:
      - "또\_지역 신용보증기금의 심사를 거쳐 업체당 최대 5000만원까지 보증 지원한다."
      - 열차와 고속·시외버스, 항공기, 연안여객선은 최대한 증편하기로 했다.
      - 요리에 필요한 양념이 없던것이 아쉬웠습니다
  - source_sentence: 북한에서 관리중인 도메인으로 메일을 보내면 안됩니다.
    sentences:
      - 포항 지역 지진은 얼마나 커?
      - 북한 도메인으로 메일을 보내지마세요.
      - 만약 당신이 팔레르모에 온다면,  집을 정말 추천해요!
  - source_sentence: 다음 방문 때는 귀마개를 챙겨갈 예정입니다.
    sentences:
      - 다음에  하와이를 오면 재방문  예정입니다.
      - 여태 만났던 비앤비숙소 호스트중에 손꼽히는 분이었습니다.
      - 2019 12월부터 1 사이에 특별통지였는데, 신청일 현재 고용보험에 가입하면 지원을 받을  있나요?
  - source_sentence:  바로 옆에 슈퍼가 있고 무엇보다 집이 조용해요.
    sentences:
      - 우리  바로 옆에 슈퍼마켓이 있는데, 무엇보다도 조용해요.
      - 광복절이니 어디 마실 가지 말고 집에서 쉬렴.
      - 백일 기념일이 어느 날짜죠?
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
  - pearson_cosine
  - spearman_cosine
model-index:
  - name: SentenceTransformer based on klue/roberta-base
    results:
      - task:
          type: semantic-similarity
          name: Semantic Similarity
        dataset:
          name: Unknown
          type: unknown
        metrics:
          - type: pearson_cosine
            value: 0.9936243373055442
            name: Pearson Cosine
          - type: spearman_cosine
            value: 0.9738248100401111
            name: Spearman Cosine

SentenceTransformer based on klue/roberta-base

This is a sentence-transformers model finetuned from klue/roberta-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: klue/roberta-base
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    '집 바로 옆에 슈퍼가 있고 무엇보다 집이 조용해요.',
    '우리 집 바로 옆에 슈퍼마켓이 있는데, 무엇보다도 조용해요.',
    '광복절이니 어디 마실 가지 말고 집에서 쉬렴.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Semantic Similarity

Metric Value
pearson_cosine 0.9936
spearman_cosine 0.9738

Training Details

Training Dataset

Unnamed Dataset

  • Size: 10,501 training samples
  • Columns: sentence_0, sentence_1, and label
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 label
    type string string float
    details
    • min: 6 tokens
    • mean: 20.14 tokens
    • max: 60 tokens
    • min: 6 tokens
    • mean: 19.3 tokens
    • max: 64 tokens
    • min: 0.0
    • mean: 0.43
    • max: 1.0
  • Samples:
    sentence_0 sentence_1 label
    헌법 전문에 ‘5·18민주화운동’을 새기는 것은 5·18을 누구도 훼손하거나 부정할 수 없는 대한민국의 위대한 역사로 자리매김하는 일입니다. 2018년, 저는 ‘5·18민주이념의 계승’을 담은 개헌안을 발의한 바 있습니다. 0.33999999999999997
    이와함께 코로나19로 촬영·제작이 중단된 한국영화 20여편에 제작지원금을 지원하고, 영화업계 관계자 4000여명의 직업훈련수당도 지급한다. 또한, 그것은 코로나19와 함께 촬영과 제작이 중단된 20개 이상의 한국 영화에 대한 지원을 제공할 것이며, 4,000명의 영화산업 관계자들에게 직업 훈련 수당도 지급할 것입니다. 0.8400000000000001
    약속장소는 잊지 말고 분명하게 공지하세요. 저녁 일정이 안 잡힌 날짜 이번 주에 있으면 며칠인지 알려주세요. 0.06
  • Loss: CosineSimilarityLoss with these parameters:
    {
        "loss_fct": "torch.nn.modules.loss.MSELoss"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • num_train_epochs: 4
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 4
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step Training Loss spearman_cosine
0.7610 500 0.0275 -
1.0 657 - 0.9371
1.5221 1000 0.0082 0.9495
2.0 1314 - 0.9587
2.2831 1500 0.0051 -
3.0 1971 - 0.9691
3.0441 2000 0.0035 0.9696
3.8052 2500 0.0026 -
4.0 2628 - 0.9738

Framework Versions

  • Python: 3.12.3
  • Sentence Transformers: 3.3.1
  • Transformers: 4.47.1
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.2.1
  • Datasets: 3.2.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}