SentenceTransformer based on shangrilar/klue-roberta-base-klue-sts
This is a sentence-transformers model finetuned from shangrilar/klue-roberta-base-klue-sts. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: shangrilar/klue-roberta-base-klue-sts
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'JD월드와이드보다 먼저 해외 직구 사이트를 만든 회사는?',
'중국의 1, 2위 전자상거래업체 알리바바와 JD닷컴이 급성장하는 해외 직접구매(직구) 시장을 놓고 맞붙었다.16일 사우스차이나모닝포스트(SCMP)에 따르면 JD닷컴은 지난 15일 해외 직구 전용 사이트 JD월드와이드(www.jd.hk)를 개설해 본격적인 영업에 들어갔다. 중국 소비자는 이 사이트에서 중국에 직접 진출하지 않은 기업의 제품도 온라인으로 구매할 수 있다. 현재 버버리 랄프로렌 리바이스 보스 에코 등 패션 브랜드와 시세이도 랑콤 등 화장품 브랜드가 제품을 판매하고 있다. JD닷컴 관계자는 “미국 호주 프랑스 일본 한국 등의 다수 기업이 참여 의사를 밝혔다”며 “향후 세계 1200개 브랜드 제품을 판매할 것”이라고 설명했다. 앞서 알리바바의 B2C 전자상거래 사이트인 티몰은 작년 2월 해외직구 전문 사이트 티몰글로벌(www.tmall.hk)을 열었다. 이곳에는 한국의 이마트 롯데마트 LG생활건강 등도 입점해 있다.중국 전자상거래연구센터에 따르면 중국의 해외 직구 시장은 2013년 13조원이던 것이 작년에는 27조원으로 커졌으며, 2018년에는 418조원 규모로 급팽창할 것으로 예상되고 있다.',
"달라스튜디오가 신규 웹예능 ‘배달그라운드’로 뜨거운 인기를 이어간다. 글로벌 미디어 기업 에이앤이 코리아(A+E Korea)의 유튜브 채널 ‘달라스튜디오’가 2020년 돌풍을 일으킨 ‘네고왕’과 ‘발명왕’의 인기를 이어갈 신작 웹예능 ‘배달그라운드’를 오늘(12일) 저녁 6시 30분에 첫 공개한다. ‘배달그라운드’는 찾아가는 본격 전국 배달맛집 리뷰 웹예능으로, 언택트 시대에 걸맞는 먹방 리뷰 콘텐츠로 다시 한번 에이앤이 디지털 스튜디오만의 ‘남다른’ 행보를 이어갈 예정. ‘배달그라운드’는 전국 방방곡곡 숨은 배달맛집들을 발굴하고, 직접 배달 가능 지역으로 찾아가 ‘어디서든’ 100% 솔직한 먹방 리뷰를 전한다. 특히 길바닥부터 모텔 바닥까지 배달 가능 지역에 어디서든 안전하게 먹을 수 있는 곳을 찾아 무작정 펼치는 이색 먹방을 펼칠 예정. 언택트 시대로 각광받고 있는 ‘배달 맛집 투어’라는 신선한 컨셉과 SNL에서 싱크로율 100%를 자랑하는 이광수 얼굴묘사로 ‘보급형 이광수’ 라는 타이틀을 얻은 배우 겸 개그맨 이명훈이라는 신선한 캐스팅으로 더욱 기대를 북돋고 있다. 12일(목) 공개될 ‘배달그라운드’ 1화에서는 정제되지 않은 예능원석 이명훈이 거침없는 배달 맛집 투어의 첫 시작을 알린다. “얼굴은 이광수, 이름은 임영웅을 닮았다”는 닮은 꼴 부자 이명훈의 자유분방한 동네투어부터 제작진과의 남다른 티격태격 케미 폭발로 첫 화부터 새로운 웃음 폭탄의 등장을 알릴 예정. “‘동네왕’으로 이름 변경하면 안 돼요?”라며 왕이 되고 싶다는 야심을 드러낸 이명훈과 콘텐츠 재미를 위한 제작진들의 고군분투 케미가 ‘배달그라운드’ 유행을 예고한다. 에이앤이 코리아 디지털 스튜디오에서 선보인 유튜브 채널 ‘달라스튜디오’는 ‘네고왕’, ‘발명왕’ 등 메가 히트 웹예능을 잇달아 선보이고 있다. 런칭 3개월만에 구독자 100만 명 돌파하는 등 독보적인 화제성과 파급력을 입증하고 있는 달라스튜디오는 '배달그라운드'를 공개해 흥행 돌풍을 이어갈 계획이다. 찾아가는 배달 맛집 전국 투어가 시작되는 '배달그라운드' 1화는 12일(목) 저녁 6시 30분 달라스튜디오에서 공개된다. ‘배달그라운드’는 매주 목요일 저녁 6시 30분 유튜브 채널 달라스튜디오에서 공개될 예정이다.",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Semantic Similarity
- Evaluated with
EmbeddingSimilarityEvaluator
Metric | Value |
---|---|
pearson_cosine | 0.8053 |
spearman_cosine | 0.815 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 17,552 training samples
- Columns:
sentence_0
andsentence_1
- Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1 type string string details - min: 9 tokens
- mean: 17.84 tokens
- max: 37 tokens
- min: 241 tokens
- mean: 433.76 tokens
- max: 512 tokens
- Samples:
sentence_0 sentence_1 보금자리주택 사업을 유지하겠다고 한 인물은?
대도시 주변 그린벨트(개발제한구역) 해제지역에 들어서는 대규모 주택단지 ‘보금자리’. 이 주택 브랜드가 도입된 건 2009년이다. 이명박 정부가 2018년까지 주택 150만가구를 공급하는 것을 목표로 시작한 장기 주택정책 사업이다. 지역별로는 수도권 100만가구, 지방 50만가구이며 유형별로는 분양 70만가구, 임대 80만가구 등이다.수도권에서는 서울 강남, 서울 서초, 고양 원흥, 하남 미사가 보금자리 시범지구(1차지구)로 선정된 데 이어 서울 세곡2, 서울 내곡, 남양주 진건, 시흥 인계, 구리 갈매, 부천 옥길 등이 2차 지구로 뽑혔다. 3차에서는 광명·시흥을 비롯해 서울 항동, 인천 구월 등이 지정되는 등 총 6차에 걸쳐 30여만가구가 들어서는 보금자리지구가 선정됐다. 2018년까지 150만가구를 공급하는 게 목표인 가운데 2009~2012년 4년 동안 사업 승인을 받은 물량은 36만가구로 당초 계획의 59.16%에 그쳤다. 수도권은 54.71%, 지방은 68.06%였다. 착공 및 준공 실적은 더 떨어진다. 같은 기간 착공 실적은 전국 8만1492가구로 당초 계획의 13.58%에 불과했다. 준공 실적도 1만가구(1.68%)에 머물렀다. 국회 국토교통위원회 소속 오병윤 통합진보당 의원(광주 서구을)이 지난해 국정감사 때 보금자리주택사업을 총괄 분석한 결과다. 보금자리주택은 이번 정부가 들어서면서 추진력을 더 잃었다는 평가가 나온다. 서승환 국토교통부 장관은 지난해 3월 취임 기자간담회에서 “앞으로 대규모 개발을 통한 주택 공급은 바람직하지 않다”고 말해 보금자리주택 사업의 일반 분양을 축소하거나 중단하겠다는 뜻을 밝혔다. 현 정부는 도심의 확장을 막는 그린벨트를 해제한 데다 2008년 글로벌 금융위기 이후 침체된 민간 주택시장을 교란시킨다는 지적을 받아온 보금자리의 이름을 ‘공공주택’으로 고치는 등 보금자리의 흔적 지우기에 나섰다.
바이마르 정부가 화폐를 수없이 찍어낸 이유는?
1919년부터 1933년까지 독일은 제 1차 세계대전 이후 세워진 바이마르 공화국이 통치했다. 바이마르 공화국은 이원집정부제와 민주주의에 기반한 공화국이었다. 하지만 바이마르 공화국은 성립 직후부터 수많은 위기에 직면하게 된다. 초인플레이션과 정치적 혼란, 정당들의 분열과 1차 세계대전의 승전국들과의 껄끄러운 관계 등이 끊임없이 바이마르 공화국의 목을 잡았던 것이다. 특히 1919년에 맺어진 베르사유 조약에서, 당시 패전국이었던 독일은 엄청난 양의 배상금을 물어주어야했는데, 바이마르 정부는 이 배상금을 주기 위하여 대규모로 돈을 찍어냈다. 정부가 지나치게 통화 유통량을 증가시키자 시중에서는 당연히 대규모 인플레이션이 일어났고, 이 때문에 모든 상품 가격들이 상승하고 독일은 경제적인 대혼란에 빠져들었다. 게다가 이러한 노력에도 불구하고 바이마르 공화국이 프랑스에게 배상금을 갚는 데에 실패하자, 프랑스 군대는 루르에 있는 독일의 공장 지대를 강제로 점령하였다. 이는 독일 대중들의 격분을 불러왔고, 바이마르 공화국은 갈수록 위태로워져만 갔다.
국가사회주의 독일 노동자당(나치당)은 1920년에 창당되었다. 1년 전에 창당되었던 독일 노동자당을 이어 만들어졌으며, 당시 독일에서 활하던 극우 정당 들 중 하나였다. 나치당 강령에는 바이마르 공화국의 해체, 베르사유 조약 파기, 급진적인 반유대주의, 반공주의 등이 들어있었다. 이들은 국민들에게 강력한 중앙 정부를 약속했으며, 주거 문제를 안정시키겠다고 공언했으며 인종에 기반한 정책을 펼칠 것이라고 말했다. 또한 막대한 부를 축적하고 있던 유대인들과 같은 인종들을 쓸어내어 세계의 '인종적 순수성'을 지켜낼 것이는 망언을 하는 등 과격하고 급진적인 정책들을 쏟아내었다. 나치당은 돌격대를 창설하여 자신들에게 반대하는 사람들에게 폭행을 가하거나 죽였고, 거리에서 유대인들을 폭행하거나 상대 정당의 모임들에 쳐들어가며 공포 분위기를 조장하였다.
1929년 10월 24일, 미국의 주식 시장이 대폭락하자 이는 미국의 달러에 깊이 의존...오바마의 방일 일정을 연장하는데 기여한 것으로 보이는 규칙은?
버락 오바마 미국 대통령이 오는 25일 한국을 방문해 박근혜 대통령과 정상회담을 한다. 3일 외교 소식통에 따르면 오바마 대통령은 23일 2박3일간 일본을 국빈 방문한 뒤 25일 1박2일 일정으로 방한한다. 일본과 한국 모두 1박2일을 계획했으나 일본 일정을 하루 늘렸다. 민경욱 청와대 대변인은 “오바마 대통령이 1박 일정으로 방한한다”며 “구체적인 날짜와 일정은 미국과 협의 중”이라고 확답을 피했다.미국은 일본의 끈질긴 요청으로 막판에 일정을 재조정한 것으로 알려졌다. 일본은 오바마 대통령의 방문이 1996년 빌 클린턴 전 대통령 이후 18년 만에 이뤄지는 미국 대통령의 국빈 방문이라는 점에서 큰 의미를 부여하고 있다. 한 외교 소식통은 “일본은 지난달 백악관이 아시아 순방 계획을 발표했을 때부터 방문 일정 연장을 집요하게 요구해왔다”며 “최근에는 정상회담 외에도 일왕 예방과 만찬 행사 등을 위해 최소 2박3일이 필요하다고 주장해 미국이 막판에 일정을 하루 앞당겼다”고 설명했다. 이 같은 배경에는 최근 일본의 대미 정책이 주효했다는 평가가 나온다. 일본은 최근 무기 관련 기술 수출을 금지하는 원칙을 47년 만에 폐지했다. 미국 정부는 이날 “일본의 정책 개정을 환영한다”며 “미국 및 다른 파트너 국가와의 방산 협력 기회를 넓혀주고 절차를 간소화해줄 것”이라는 입장을 발표했다. 일본이 환태평양경제동반자협정(TPP) 협상에서 미국의 요구 조건을 일부 수용하는 등 한발 물러설 것이란 전망도 나온다. 오바마 대통령은 방한기간 박 대통령과 정상회담을 하고 교육·문화 이벤트, 주한미군 관련 행사에 참석할 것으로 알려졌다. 2009년 취임 이후 네 번째 한국 방문이다. 북핵 문제와 군사안보 분야에서 한·미 동맹 등이 주요 의제로 논의될 것으로 예상된다.
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size
: 16per_device_eval_batch_size
: 16num_train_epochs
: 1batch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: round_robin
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: noprediction_loss_only
: Trueper_device_train_batch_size
: 16per_device_eval_batch_size
: 16per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1num_train_epochs
: 1max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: round_robin
Training Logs
Epoch | Step | Training Loss | spearman_cosine |
---|---|---|---|
0 | 0 | - | 0.8150 |
0.4558 | 500 | 0.1625 | - |
0.9116 | 1000 | 0.1118 | - |
Framework Versions
- Python: 3.12.3
- Sentence Transformers: 3.3.1
- Transformers: 4.47.1
- PyTorch: 2.5.1+cu124
- Accelerate: 1.2.1
- Datasets: 3.2.0
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 4
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.
Model tree for EllieChoi/klue-roberta-base-klue-sts-mrc
Base model
shangrilar/klue-roberta-base-klue-stsEvaluation results
- Pearson Cosine on Unknownself-reported0.805
- Spearman Cosine on Unknownself-reported0.815