mssongit's picture
Upload GTE Embedding Model
a3552d8 verified
metadata
base_model: Alibaba-NLP/gte-multilingual-base
datasets:
  - nlpai-lab/ko-triplet-v1.0
language:
  - ko
library_name: sentence-transformers
metrics:
  - cosine_accuracy
pipeline_tag: sentence-similarity
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:744862
  - loss:MultipleNegativesRankingLoss
widget:
  - source_sentence: 인천청라지구는 최적의 업무환경을 공급하기 위해서 어떻게 
    sentences:
      - >-
        ∙ 한중 증권거래소 유치

        - 동북3성에 대한 해외투자국  한국이 수위국가이며, 최근 중국기업의 한국기업 인수도 비교적 활발하게 진행되고 있다.

        - 최근 중국은 상장기업 주식 60% 이상을 차지하는 정부 보유의 비유통주의 상장을 검토하고 있으나 물량부담으로 고민 중인데,
        청라지구에 한·중 증권거래소를 설립함으로써, 중국의 증시 물량부담에 의한 유통화의 문제를 해결하는데 기여하면서 청라지구를 한국과
        중국의 경제교류의 핵심거점으로서의 위상을 구축할  있을 것으로 판단된다.

         중국인에 대한 제한된 영주권의 발급

        - 중국의 ‘고소득-저소비 현상’은 중국 고소득층의 소비능력에 비해 중국 내의 고품격 상품이 부족하다는 것을 의미한다. 이는 중국
        고소득층의 해외진출로 이어질 가능성이 농후하다. 청라지구에 개발되는 각종 스포츠 레저시설과 상업시설, 주거시설은 중국의 고소득층을
        겨냥하게 되면, 중국인의 진출을 유도할  있으며, 청라지구는 환황해권 중심도시로 발전할  있을 것이다.

        - 이를 촉진할  있는 방법은 청라지구에 제한된 영주권을 중국 고소득층에게 발급하는 것이다. 중국의 막대한 소비력을 가지고 있는
        계층을 청라지구로 유인하기 위한 제한된 영주권은 현재 중국 광저우의 ‘블루씰 카드’를 염두에  것이다.

         서울의 금융집적지와의 긴밀한 연계

        - 청라지구를 환황해권 중심도시로 성장시키고 그에 대한 금융수요에 대응하기 위해서는 서울시내 금융집적지와의 긴밀한 교통망 연계가
        필요하다. 현재 신공항철도, 지하철9호선, 신공항도로 등이 완공되면 청라지구의 접근성은 더욱 양호해질 전망이며, 향후 개성공단 
        북한과의 연계에 있어서도 청라지구는 상당히 유리한 위치라고   있다.
      - >-
        Ethephon의 초기 잔류량은 \(1\)회와 \(2 \)회 살포하였을 때 각각 \( 395.8\), \(596.3
        \mathrm{~mg} \mathrm{~kg}^{-1} \)으로 나타났으며, 생물학적 반감기는 각각 \( 26.6
        \mathrm{~h} \) 및 \( 21.1 \mathrm{~h} \)로 나타났다.
      - >-
        ■ 인천청라지구 외국인투자유치 프로젝트

         개요

        - 인천청라지구 사업대상지에 개별 사업으로 국제업무타운(복합개발단지), 테마파크형 골프장, 테마형 레저·스포츠단지 등을
        건설함으로써 국제업무  관광·스포츠레저단지로서의 인천청라지구의 위상을 제고하고 지역경제 활성화에 기여할 목적으로 외국인의 투자를
        유치하고자 하는 사업

         인천청라지구 외국인투자유치 프로젝트 공모추진 일정

        - 2006. 04. 20공모공고

        - 2006. 07. 19제안서 접수

        - 2006. 07. 31심사  사업자후보자 선정

        - 2006. 10 사업협약 체결

         토지이용계획  사업내용

        - 최적의 업무환경을 제공할  있도록 국제업무단지 중심의 국제업무타운을 조성하며, 국제도시로서 뛰어난 경관을 확보   있도록
        국제업무타운과 테마파크형 골프장 등을 인접토지이용과 조화될  있도록 배치한다. 외국인투자기업의 업무환경, 외국인의 정주환경을
        조성하기 위하여 외국인 취향에 부합하도록 주거, 업무, 상업시설 조성
  - source_sentence: 항미생물적 특성은 전부터 무엇의 저장에 많이 이용되었는가?
    sentences:
      - >-
        호중성 과립구


        호중성 과립구. 항미생물 기능 식세포작용 활성산소종을 생산하면서 산소를 소비하는 것을 "호흡폭발"이라 한다. 호흡폭발은 호흡이나
        에너지 생산과는 무관하다. 호흡폭발은 활성산소종인 초과산화물을 대량으로 생산하는 NADPH 산화효소가 활성화되는 것과 관련이
        있다. 초과산화물은 자발적으로 안정한 상태로 변화하거나 초과산화물 디스뮤테이스(Cu/ZnSOD와 MnSOD)에 의해 분해되어
        과산화수소가 되고 녹색  효소 골수세포형과산화효소에 의하여 다시 하이포아염소산(HClO)으로 전환된다. HClO는 호중구가
        포식한 세균을 죽일  있는 물질이지만, 직접 세균을 처리하는 대신 단백질분해효소를 활성화하는데 필요하다는 연구가 있다.
      - >-
        이러한 항미생물적 특성은 예로부터 식품의 저장 등에 많이 이용되어져 왔지만, 근래에 들어 가금과 식품의 질병과 변질을 방지하는
        용도로 많이 연구가 되어지고 있다.
      - 여러 가지 식물정유와 주요성분의 항미생물적 특성에 관한 연구는 1900 년대 초부터 시작하여 현재까지 많은 연구가 진행되어 왔다.
  - source_sentence: 레이가 튜온  옵션을 개발하고  바이브 서비스를 활용한  누구와 사는 사람들을 겨냥해서야
    sentences:
      - >-
        자체 개별화 상품인 ‘튜온 펫’을 내놓으면서 반려동물과 차박을 떠나는 젊은 층의 마음을 사로잡는 데 성공한 것이다. 튜온 펫은
        반려동물을 위한 레이의 전용 카시트(이동식 케이지)와 카펜스, 방오 시트 커버까지 따로 구매할 수 있도록 한 레이 특화 상품이다.
      - >-
        최근에는 양성자를 이용한 다양한 연구가 이루어지고 있으며 그 중 양성자 빔 조사에 의한 연구로는 \( \mathrm{Au}^{+}
        \)nano 물질 모양에 대한 \( \mathrm{Ag}^{+} \)농도효과, 화훼류 및 채소작물, 버섯종균 등에 양성자 빔을
        조사한 결과 다양한 형태의 돌연변이가 나타남을 연구 보고된바 있다.
      - >-
        시민참여형 서비스R&D 사업은 사용자가 직접 연구개발 과정에 참여하는 ‘공동창작 서비스’와 사용자 빅데이터 등을 활용하여 신규
        서비스를 개발하는 ‘디지털 서비스’로 구분되며, 6개월의 기간동안 유형별 9천만 원의 사업비를 지원받는다.
  - source_sentence: 소득 증가는 소비자들의 잔류 농약에 대한 관심을 떨어뜨렸는가?
    sentences:
      - >-
        화학농약은 자연계의 천적을 감소시켜 생태계를 파괴하고 지하수와 지표수를 오염시키며 농산물에 잔류하여 소비자의 건강을 위헙하기
        때문에 최근 잔류농약에 관한 규제가 매우 강화되고 있으며 또한 소비자들은 농산물의 잔류농약 두려움으로 인하여 유기농산물의 구입을
        선호하고 있는 실정이다.
      - 최근 소득 증가로 인하여 삶이 여유로워짐에 따라 많은 소비자들의 잔류 농약으로부터 안전한 먹거리에 대한 관심이 높아지고 있다.
      - >-
        토성의 고리


        토성의 고리. 고리는 햇빛을 반사하여 토성의 밝기를 증가시키지만, 지구에서 육안으로는 보이지 않는다. 1610년에 갈릴레오
        갈릴레이가 망원경으로 토성의 고리를 발견했지만, 그는 망원경의 성능이 좋지 못해 고리를 귀나 컵의 손잡이라고 생각했어도 최초로
        토성의 고리를 관측한 사람이 되었다. 1655년, 크리스티안 하위헌스는 그것을 토성을 둘러싸는 고리로써 최초로 묘사한 사람이
        되었다. 많은 사람들이 토성의 고리가 아주 작은 고리들로 연속적으로 이루어진 것이라고 생각했지만(라플라스 이후의 개념), 실제로는
         개의 간극이 존재한다. 동심원 모양으로 밀도와 밝기의 최대와 최소가 존재하는 고리 원반이 고리에 대한  정확한 생각이다.
        고리 내에서도 덩어리의 규모에 비해 텅빈 공간이 많다.
  - source_sentence: 항체 활성을 가지고 있는 특별한 단백질을 뭐라고 부를까?
    sentences:
      - >-
        추출물에 함유된 total phenolic compounds의 함량을 측정하기 위해 Folin과 Denis의 방법에 준하여
        주름조개풀 추출물 \( 1 \mathrm{~mL} \), 동량의 \( 95 \% \) 에탄올 \( 1 \mathrm{~mL}
        \)와 \( 5 \mathrm{~mL} \)의 증류수를 첨가한 후 \( 2 \mathrm{~N} \) 농도의
        Folin-ciocalteu reagent를 \(2 \)배 희석하여 \( 0.5 \mathrm{~mL} \)를 첨가하였다.
      - >-
        Immunoblotting 결과, 한 번의 Dps 단백질 주입만으로도 매우 많은 양의 항체가 생성되었음을 확인하였으며, 이는
        Dps 단백질이 매우 높은 항원성을 가지고 있다는 것을 의미한다(data not shown).
      - 항체 활성을 가지고 있는 특별한 단백질을 면역글로불린(immunoglobulin)이라 부르며 Ig로 표기한다.
model-index:
  - name: SentenceTransformer based on Alibaba-NLP/gte-multilingual-base
    results:
      - task:
          type: triplet
          name: Triplet
        dataset:
          name: all nli dev
          type: all-nli-dev
        metrics:
          - type: cosine_accuracy
            value: 0.9967361111111112
            name: Cosine Accuracy

SentenceTransformer based on Alibaba-NLP/gte-multilingual-base

This is a sentence-transformers model finetuned from Alibaba-NLP/gte-multilingual-base on the ko-triplet-v1.0 dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: Alibaba-NLP/gte-multilingual-base
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
  • Language: ko

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    '항체 활성을 가지고 있는 특별한 단백질을 뭐라고 부를까?',
    '항체 활성을 가지고 있는 특별한 단백질을 면역글로불린(immunoglobulin)이라 부르며 Ig로 표기한다.',
    'Immunoblotting 결과, 한 번의 Dps 단백질 주입만으로도 매우 많은 양의 항체가 생성되었음을 확인하였으며, 이는 Dps 단백질이 매우 높은 항원성을 가지고 있다는 것을 의미한다(data not shown).',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Triplet

Metric Value
cosine_accuracy 0.9967

Training Details

Training Dataset

ko-triplet-v1.0

  • Dataset: ko-triplet-v1.0 at 9cc1d6a
  • Size: 744,862 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 8 tokens
    • mean: 25.75 tokens
    • max: 133 tokens
    • min: 10 tokens
    • mean: 132.62 tokens
    • max: 1277 tokens
    • min: 11 tokens
    • mean: 198.97 tokens
    • max: 1046 tokens
  • Samples:
    anchor positive negative
    2011년에 경북대학교는 어떻게 채용조건형 계약학과인 모바일공학과를 신설했어 ② 경북대 모바일공학과(경북대 모바일공학과, 2012)
    경북대 모바일공학과는 삼성전자와 지식경제부가 공동으로 지원하는 제3자 계약형의 계약학과이다. 경북대는 2011년 들어 삼성전자, 지식경제부와 협력하여 모바일공학과를 준비하였으며 삼성전자 역시 차세대 모바일 분야의 인재들을 육성하기 위해 모바일공학과를 개설하게 되었다(석민, 2012).
    채용조건형 계약학과인 만큼 졸업 후 상당수의 학생들이 삼성전자에 채용될 것으로 예상되며 삼성 측의 각종 교육혜택과 장학금 지원도 보장된다.
    ③ 세종대 국방시스템공학과(세종대학교 국방시스템공학과, 2012)
    세종대 국방시스템공학과는 국방부와 학교가 협력을 맺은 장교육성형 계약학과이다. 국방시스템공학과는 정보과학화속에 점차 첨단화되어 가는 국방운용 체계를 이해하고 이를 효율적으로 운용, 관리하기 위한 기본지식과 역량을 갖춘 군사과학기술전문가 양성을 위한 교육과정을 제공한다. 이를 위해 무기체계의 공학적 원리를 이해하고 과학기술군을 선도하는 전문가로서의 자질함양을 위하여 군사과학기술 분야에 대한 교과목을 편성하고 있으며, 군의 핵심간부로서 자질함양을 위하여 국방정책 및 전략에 대한 교육 과정도 제공한다.
    (3) 계약학과의 주요 사례
    ① 성균관대 반도체시스템공학과(성균관대학교 반도체시스템공학과, 2012)
    성균관대는 삼성전자와 반도체시스템공학과를 학사 과정에 설치하면서 최초로 채용조건형 계약학과를 도입하였다. 또한 대학원 과정으로 삼성전자와 IT융합학과, 삼성전기와 이동통신공학과, 삼성물산과 초고층·장대교량학과를 운영하고 있다.
    성균관대학교 반도체시스템공학과는 기업 맞춤형 인재를 양성하기 위해 현장연계 프로그램을 운영하고, 현장 중심의 교육과정을 편성했다. 전공 수업의 대학 및 산업체 강의 비율을 50:50으로 유지하고, 각 분야의 전문가를 초청하여 일반 정보를 비롯, 시장 경향까지 현장감 넘치는 정보와 직접적인 지식을 제공하는 한편, 졸업 이후 현장 업무에 빠르게 적응할 수 있도록 현장체험 시간을 보장하고 있다.
    1학년 학생들을 대상으로는 사업장 견학을 실시하여 자신의 전공과 진로에 대해 실제적인 이해를 도와주며, 현장 경험 기회를 제공하고, 실제 입사 전에 인턴십 프로그램을 통해 실제 현장의 전문가로부터 교육을 받는 경험도 할 수 있다. 이를 통해 재학 중 삼성전자에서 실시하는 최소채용절차를 통과하여 입사를 보장받고, 동 대학원(반도체시스템공학과)에 진학할 경우 전액 장학금 및 학업 장려금도 지원 받을 수 있다. 이는 채용조건형 계약학과의 우수사례라고 볼 수 있으며, 기업 맞춤형 인재양성을 위해 현장 중심의 경험을 확대한 것 역시 장점이라고 볼 수 있다.
    추후에 누구를 대상으로 한 바이노럴 비트에 미치는 영향에 대한 추가적인 연구가 요구되는가? 추후 실제 청력이 저하된 피실험자를 대상으로 청력 저하 요인별로 바이노럴 비트에 미치는 영향에 대한 추가적인 연구가 요구된다. 아직까지 청력 차이에 따른 바이노럴 비트의 뇌파동조 정도에 대한 체계적인 연구가 보고된 바 없다.
    상대적으로 구분되는 법의 특성상 상법을 기준으로 볼 때 특별법으로 볼 수 있는 법은 뭐야 나. 특별법의 개념과 네트워크적 의미
    특별법은 법률의 유형을 분류할 때 일반법에 대비하여 쓰이는 개념이다. 일반법은 보편적이고 추상적인 규율을 하는 법률을 말하는 반면, 특별법은 특정한 법적 대상, 즉, 사람이나 지역, 기간 등에 대하여 적용되는 개별적이고 구체적인 법률을 의미한다(박영도, 2012). 이 구분은 「은행법」, 「상법」 및 「민법」의 관계에서 볼 수 있듯이 상대적인 것이다. 즉, 「상법」은 「민법」의 특별법이고, 「은행법」 은 「상법」의 특별법이다. 일반법과 특별법은 이처럼 내용의 상대적인 구체성과 개별성을 기준으로 판단되는 것이 정확하나, 현행법에 대한 실증적인 연구를 할 때는 보통 제명상 특별법이라는 분류를 사용한다(박영도, 2012; 최윤철 등 4인, 2012). 예를 들면 「상법」이 「민법」의 특별법이라고 하여 제명상의 특별법과 동일하게 취급하고 분석하는 것은 적절하지 못한 것으로 보인다. 또한 각종 진흥법과 지원법도 급부적인 형태의 특별법의 일종으로 이해되고 있다(손현, 2016).
    앞서 살펴본 선행연구에서 공통적으로 제시되는 발전방향은 사업 추진체계 정비 및 인프라 구축, 이를 통한 전문 적응지원 서비스 및 민간일자리 전이 지원, 민간일 자리 전이 가능성에 따른 배치기관 연계, 장애, 성별, 연령 등 개인의 특성 등을 고려한 일자리 개발 및 확대 등이라고 볼 수 있다. 선행연구에서 제시된 사업 발전방향과 개선방안 등을 종합적으로 분석한 결과, 장애인일자리사업의 주요 개념은 ‘장애인’과 ‘일자리’라는 두 가지 개념으로 구분해서 생각해볼 수 있다. 먼저 장애인이라는 참여자를 중심으로 볼 때, 개인을 구성하는 다양한 요소에서 비롯되는 ‘개인특성’ 요인이 있고, 일자리라는 특성을 중심으로 볼 때의 주요 구성요인은 ‘근로조건’과 ‘직무특성’으로 구분될 수 있다. 마지막으로 장애인과 일자리의 연결 지점이라 할 수 있는 ‘적응지원 서비스’ 요인으로 개인이 일자리에 잘 적응할 수 있도록 전문자원을 활용하는 것이라 정의할 수 있다.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

ko-triplet-v1.0

  • Dataset: ko-triplet-v1.0 at 9cc1d6a
  • Size: 744,862 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 7 tokens
    • mean: 26.08 tokens
    • max: 104 tokens
    • min: 11 tokens
    • mean: 132.54 tokens
    • max: 631 tokens
    • min: 11 tokens
    • mean: 202.75 tokens
    • max: 1121 tokens
  • Samples:
    anchor positive negative
    국토교통부가 공동주택관리업무를 지원하고자 행복지원센터를 둔 기관은 어디야 5. 공동주택관리지원기구
    □ 공동주택관리업무를 지원하기 위해 국토교통부와 서울시는 지원기구를 신설하여 업무를 수행 중임
    □ 국토교통부는 2014년 4월 8일부터 한국토지주택공사(LH)의 자회사인 주택관리공단에 ‘행복지원센터’라는 이름으로 공동주택관리지원센터를 설치하여 공동주택관리에 관한 지원업무를 수행 중임
    ○ 동 센터는 다음과 같은 업무를 수행 중임
    - 입주자대표회의 구성·운영 등 민원에 대해 전화상담
    - 관리주체 또는 입주자대표회의 요청 시 회계·계약·시설관리 진단서비스
    - 관리주체 또는 입주자대표회의 요청 시 공사·용역 타당성 자문
    - 층간소음 분쟁 등에 대해 현장 방문을 통해 상담·중재
    - 진단서비스, 타당성 검토 시 현장 방문 결과를 반영(피드백)
    ■ 추진내용
    ① 행복주택 확대
    ② 공동육아 시설 등 보육 시설 확대를 통한 육아의 어려움 해결
    ③ 안동시 공공시설을 활용한 저렴한 예식장 및 예복 대여 등으로 결혼부담 감소
    ④ 저소득층 육아 지원 사업
    ⑤ 정부의 주택 지원사업 홍보
    ⑥ 안동 육아종합지원센터 개소
    ⑦ 시립 어린이집 확충
    ⑧ 예비엄마 병원진료 교통비 지원
    ⑨ 원도심 내 공공산후조리원 설치
    ■ 고려사항
    출산율과 주거문제 해결은 대한민국 전체의 문제로, 안동시 내부적으로 모두를 해결하기에는 어려움이 있다. 행복주택은 지자체와 국토교통부가 함께 진행하는 사업이므로 행복주택 수를 늘려 비어있는 주거공간의 활용과 동시에 청년 주거 문제를 동시에 해결하는 등의 새로운 방법을 모색하는 것이 필요하다.
    과대광고를 한 P2P 사업자가 월정액을 뭐로 청구해서 이용자에게 피해를 입히지 □ 반면, 최근 온라인 영화(영상물) 제공을 주요 서비스로 하는 일부 온라인서비스사업자의 과장광고 등으로 인한 이용자의 피해가 증가하고 있어 영업질서 유지를 위한 조치가 필요한 상태임
    ○ 예를 들어, 영화, 방송, 애니메이션 등의 영상물 파일의 공유를 주요 서비스로 제공하는 P2P, 웹하드 사업자가 ‘무료회원가입 및 무제한 영화다운로드’를 광고 한 후, 회원가입을 한 이용자에게 자동결제방식을 통하여 이용자가 인식하지 못한 사이에 매월 일정금액을 청구하여 수익을 얻는 등의 소비자 피해가 발생하고 있음
    □ 한편, 최근 다수의 성인용 비디오물이 인터넷 등 정보통신망에서 유통될 목적으로 디지털형태로 제작, 배포되고 있어, 디지털형태의 비디오물제작, 유통에 대한 관리가 미비할 경우 청소년에 대한 선정적이고 폭력적 매체물의 노출빈도가 높아질 것으로 우려됨
    ○ 참고로, 영상물등급위원회의 「2010등급분류연감」에 따르면, 2010년 영상물등급위원회가 등급분류한 비디오물 4,616건 중 3,849건(83.3%)이 다매체 방식으로 제공되는 청소년관람불가 또는 제한관람가 등급의 비디오물이었음
    ○ 한편, 온라인상에서 이용자간 자유로운 영상물 거래를 가능하게 하는 온라인서비스가 등장함에 따라, 유통사업자가 개별적인 영상물 제공에 대하여 일정한 대가를 받는 전통적인 유통방식의 변화가 발생하고 있음
    - 웹하드, P2P 서비스는 인터넷상의 디지털파일 공유 서비스 제공에 대해서만 이용자로부터 대가를 받고, 개별적인 영상물의 업로드는 이용자가 하는 방식으로 운영되고 있음
    - Youtube, 엠군, 아프리카TV 등의 동영상 서비스 제공 사업자는 이용자가 업로드 한 영상물을 다른 이용자에게 무료로 제공하고, 사업수익은 광고 등을 통하여 얻는 방식으로 운영되고 있음
    □ 2010년 이후에는 스마트폰과 태블릿PC로 대표되는 무선통신기기의 기술적 발전으로 인하여 다양한 플랫폼에서 하나의 영상콘텐츠를 유통할 수 있는 기회가 열리게 됨에 따라, 온라인 영상물 중심의 비디오물 유통구조는 보다 일반화될 것으로 보임
    스트레스를 받은 닭은 코티코스테론의 증가와 인슐린 과다분비로 인하여 체내에 무엇이 증가하나요? 지금까지 알려진 것을 보면 스트레스를 받은 닭은 corticosterone의 증가와 인슐린 과다분비로 인하여 체내에 지방축적이 증가하는 것으로 알려져 있다. 닭의 경우 스트레스에 의해 증체량과 사료효율 감소가 보고되었으며, 이와 같은 결과는 닭의 골격근 발달저하와 지방축적 증가를 유발한다고 하였다.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • learning_rate: 1e-05
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • bf16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 1e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • eval_use_gather_object: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss all-nli-dev_cosine_accuracy
0 0 - - 0.9799
0.0370 100 0.2228 0.1064 0.9890
0.0741 200 0.1292 0.0510 0.9938
0.1111 300 0.0785 0.0400 0.9944
0.1481 400 0.0675 0.0345 0.9955
0.1852 500 0.0667 0.0320 0.9953
0.2222 600 0.0644 0.0306 0.9956
0.2593 700 0.067 0.0304 0.9959
0.2963 800 0.0568 0.0296 0.9956
0.3333 900 0.0617 0.0287 0.9958
0.3704 1000 0.0556 0.0274 0.9962
0.4074 1100 0.0532 0.0271 0.9962
0.4444 1200 0.0524 0.0262 0.9966
0.4815 1300 0.0529 0.0267 0.9962
0.5185 1400 0.0527 0.0260 0.9962
0.5556 1500 0.0479 0.0253 0.9962
0.5926 1600 0.0515 0.0245 0.9967
0.6296 1700 0.0512 0.0251 0.9962
0.6667 1800 0.0548 0.0245 0.9963
0.7037 1900 0.0476 0.0246 0.9965
0.7407 2000 0.0456 0.0247 0.9961
0.7778 2100 0.0548 0.0242 0.9965
0.8148 2200 0.051 0.0241 0.9965
0.8519 2300 0.0472 0.0242 0.9967
0.8889 2400 0.0492 0.0241 0.9967
0.9259 2500 0.0463 0.0239 0.9967
0.9630 2600 0.0484 0.0238 0.9967
1.0 2700 0.0498 0.0238 0.9967

Framework Versions

  • Python: 3.11.10
  • Sentence Transformers: 3.3.0
  • Transformers: 4.44.2
  • PyTorch: 2.4.1+cu124
  • Accelerate: 1.1.1
  • Datasets: 2.19.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}