Update model on 2024-08-19 03:59:59

Browse files

Files changed (6) hide show

README.md +47 -47
added_tokens.json +0 -0
config.json +2 -2
model.safetensors +2 -2
tokenizer.json +0 -0
tokenizer_config.json +0 -0

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-base_model: jh8416/my_ewha_model_2024_1
 datasets: []
 language: []
 library_name: sentence-transformers
@@ -9,45 +9,46 @@ tags:
 - sentence-similarity
 - feature-extraction
 - generated_from_trainer
-- dataset_size:97764
 - loss:MultipleNegativesRankingLoss
 widget:
-- source_sentence: for renewable energy 수소에너지수전해 및 연료전지의 기초 Basics of hydrogen energy
   sentences:
-  - of texts such as society culture and fine arts students are
-  - 전기화학의 환경공학 적용 D 미생물 연료전지 현충일 기말고사 휴강 기말 발표
-  - We will examine different policy areas such as income protection family
-- source_sentence: 강의 소개와 운영방식 안내 한국현대사를 보는 시각 시대구분과
   sentences:
-  - 기말평가 강좌소개 중국고전산문 강좌의 교과목표와 수업운영방식 중국고전산문의 역사와 갈래 역사산문과 철학산문
-  - 시간과 장소는 추후 공지 장 자기장의 원천 장 자기장의 원천 장
-  - 관점에서 환자와의 공감과 표현 정성애 사망선언의 현장 환자와 보호자 되어보기와 사망선언
-- source_sentence: 헤게모니 이후 세계정치경제에서 협력과 불화 서울 인간사랑 제부제부
   sentences:
-  - board 및 Portfolio 용 SNS 계정 개설하기 WIP 차 프로젝트 아이디어
-  - 전기화학의 환경공학 적용 D 미생물 연료전지 Class 전기화학의 환경공학 적용 D
-  - 오리엔테이션 사회봉사의 의미와 자세 과제 수업소감문작성 사캠기본교육차소감문작성 과목수강동기 느낀점 등 까지
-- source_sentence: 몽골간 네트워크 공녀와 기황후 임진왜란의 외교사 북학파와 열하일기 중간고사기간 휴강 이화여대박물관정문
   sentences:
-  - 본 교과목은 마음의 이해와 회복 과정을 설명하는 개념들을 이해하도록 돕는
-  - 및 과제 안내 교재 장 중도중복장애학생 교육의 개관 조별 적용활동 후
-  - 질서와 대한제국대면강의 현대 해방과 독립의 외교사대면강의 추석 조선 후기 동아시아 질서와
-- source_sentence: 놀이이론고전적 놀이이론 추석 연휴 수업 온라인녹화 수업 예정 강의개요교재 및 과제물
   sentences:
-  - 놀이이론고전적 놀이이론 추석 연휴 수업 온라인녹화 수업 예정 추석 연휴 개천절
-  - 우리옛말강독 중근세어 및 근대 국어의 자료를 선별하여 직접 읽음으로써 국어 자료의
-  - 주제선정 생물의 생존 전략 I 학생발표 생물의 생존 전략 II 학생발표
 ---
-# SentenceTransformer based on jh8416/my_ewha_model_2024_1
-This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [jh8416/my_ewha_model_2024_1](https://huggingface.co/jh8416/my_ewha_model_2024_1). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
 ## Model Details
 ### Model Description
 - **Model Type:** Sentence Transformer
-- **Base model:** [jh8416/my_ewha_model_2024_1](https://huggingface.co/jh8416/my_ewha_model_2024_1) <!-- at revision 8d524f7713254cc5397b7f94476f0da65a3f5a62 -->
 - **Maximum Sequence Length:** 128 tokens
 - **Output Dimensionality:** 768 tokens
 - **Similarity Function:** Cosine Similarity
@@ -88,9 +89,9 @@ from sentence_transformers import SentenceTransformer
 model = SentenceTransformer("jh8416/my_ewha_model_2024_1")
 # Run inference
 sentences = [
-    '놀이이론고전적 놀이이론 추석 연휴 수업 온라인녹화 수업 예정 강의개요교재 및 과제물',
-    '놀이이론고전적 놀이이론 추석 연휴 수업 온라인녹화 수업 예정 추석 연휴 개천절',
-    '주제선정 생물의 생존 전략 I 학생발표 생물의 생존 전략 II 학생발표',
 ]
 embeddings = model.encode(sentences)
 print(embeddings.shape)
@@ -145,19 +146,19 @@ You can finetune this model on your own dataset.
 #### Unnamed Dataset
-* Size: 97,764 training samples
 * Columns: <code>sentence_0</code> and <code>sentence_1</code>
 * Approximate statistics based on the first 1000 samples:
   |         | sentence_0                                                                        | sentence_1                                                                        |
   |:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
   | type    | string                                                                            | string                                                                            |
-  | details | <ul><li>min: 6 tokens</li><li>mean: 18.84 tokens</li><li>max: 36 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 18.17 tokens</li><li>max: 39 tokens</li></ul> |
 * Samples:
-  | sentence_0                                                           | sentence_1                                                 |
-  |:---------------------------------------------------------------------|:-----------------------------------------------------------|
-  | <code>한국전통도예의 심화과정으로 조형적 요소와 기법상의 특성을 보다 심도깊이 연구하여 작품제작에 활용한다</code> | <code>참관육아종합지원센터 센터의 기능 및 역할 특성 운영 등 현충일 교직 실무의</code>     |
-  | <code>한국전통도예의 심화과정으로 조형적 요소와 기법상의 특성을 보다 심도깊이 연구하여 작품제작에 활용한다</code> | <code>프랑스 문학을 연구하면서 각 사조의 특성과 그 변천을 작가 및 작품을</code>        |
-  | <code>한국전통도예의 심화과정으로 조형적 요소와 기법상의 특성을 보다 심도깊이 연구하여 작품제작에 활용한다</code> | <code>FLIPPED LEARNING의 특성상 오프라인 대면수업시 학습자간 토론 그룹활동</code> |
 * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
   ```json
   {
@@ -294,18 +295,17 @@ You can finetune this model on your own dataset.
 ### Training Logs
 | Epoch  | Step | Training Loss |
 |:------:|:----:|:-------------:|
-| 0.0818 | 500  | 0.7618        |
-| 0.1636 | 1000 | 0.7484        |
-| 0.2455 | 1500 | 0.7211        |
-| 0.3273 | 2000 | 0.6667        |
-| 0.4091 | 2500 | 0.6084        |
-| 0.4909 | 3000 | 0.5745        |
-| 0.5727 | 3500 | 0.5454        |
-| 0.6546 | 4000 | 0.5365        |
-| 0.7364 | 4500 | 0.5307        |
-| 0.8182 | 5000 | 0.4822        |
-| 0.9000 | 5500 | 0.47          |
-| 0.9818 | 6000 | 0.472         |
 ### Framework Versions

 ---
+base_model: jhgan/ko-sroberta-multitask
 datasets: []
 language: []
 library_name: sentence-transformers
 - sentence-similarity
 - feature-extraction
 - generated_from_trainer
+- dataset_size:88850
 - loss:MultipleNegativesRankingLoss
 widget:
+- source_sentence: 또한 관광과 여가활동 그 자체만이 아니라 그러한
   sentences:
+  - 첫째 주에 zoom을 통한 온라인 작품발표가 예정되어 있습니다
+  - 균형계획 교재 장 실험계획법과 분산분석 일원분산분석 비균형계획 교재 장 실험계획법과 분산분석
+  - 농촌관광지의사회적변화 농촌경제의재구조화 강의소개및평가안내 국제관광과관광소비 관광과세계화 관광과여가에대한사회적접근 관광과여가산업 관광의상품화
+    국가의개입과통제 임시공휴일 기말고사본
+- source_sentence: 고학년 수강생 학년과 독일어 수준이 상대적으로 높은 학생들을 대상으로 한다 교재
   sentences:
+  - 변화할까 장 의미 변화 장 화행 장 함축 발화의 숨겨진 의미를
+  - 제이콥스 원숭이 발 푸른 수염 앤절라 카터 피로 물든 방
+  - 정의 여가의 역사적 변천 여가의 상대적 기준 레크리에이션의 개념 대상 활동
+- source_sentence: KMOOC비정형데이터분석소셜네트워크의이해및분석 본 과목은 소셜 네크워크에 대한
   sentences:
+  - 논리적 사고는 추상적이고 논증적이기에 어렵고 복잡하다고 생각하기 쉽다
+  - 조각 매체와 형식의 확장 부드러운 조각비정형 페미니즘 미학과 조각 세기 중반
+  - Verkehr 계속 계속 기말시험 온라인 오픈북 시험 계속 Lektion Post und
+- source_sentence: 부모교육의 이론 원가족의 영향에 대한 통찰사티어 가족이해 가족 내 의사소통 가족
   sentences:
+  - 유체 정역학II 부양체의 안정성 유체의 상대적 평형 유체 운동학II 손실수두와 동력
+  - Im Restaurant 기말시험 준비 기말시험 결과발표 분반 온라인 테스트 참여 필수
+  - 과정 속에서 파악하여 글로벌화에 대한 통찰력과 분석력을 기른다
+- source_sentence: 지급 건강보험급여 현물급여와 현금급여 노인장기요양제도 노인장기요양보험의 개요 과제 건강보험의 이론과 실제
   sentences:
+  - 육체의 탄생 권한솔 년대 조선인 실업학교
+  - 이론 소개 이태용 온라인 강의 인장 실험 이태용 장소 공학관 B
+  - 세기 마드리갈과 세속노래 프랑스 독일 영국 기악음악의
 ---
+# SentenceTransformer based on jhgan/ko-sroberta-multitask
+This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [jhgan/ko-sroberta-multitask](https://huggingface.co/jhgan/ko-sroberta-multitask). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
 ## Model Details
 ### Model Description
 - **Model Type:** Sentence Transformer
+- **Base model:** [jhgan/ko-sroberta-multitask](https://huggingface.co/jhgan/ko-sroberta-multitask) <!-- at revision ab957ae6a91e99c4cad36d52063a2a9cf1bf4419 -->
 - **Maximum Sequence Length:** 128 tokens
 - **Output Dimensionality:** 768 tokens
 - **Similarity Function:** Cosine Similarity
 model = SentenceTransformer("jh8416/my_ewha_model_2024_1")
 # Run inference
 sentences = [
+    '지급 건강보험급여 현물급여와 현금급여 노인장기요양제도 노인장기요양보험의 개요 과제 건강보험의 이론과 실제',
+    '이론 소개 이태용 온라인 강의 인장 실험 이태용 장소 공학관 B',
+    '육체의 탄생 권한솔 년대 조선인 실업학교',
 ]
 embeddings = model.encode(sentences)
 print(embeddings.shape)
 #### Unnamed Dataset
+* Size: 88,850 training samples
 * Columns: <code>sentence_0</code> and <code>sentence_1</code>
 * Approximate statistics based on the first 1000 samples:
   |         | sentence_0                                                                        | sentence_1                                                                        |
   |:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
   | type    | string                                                                            | string                                                                            |
+  | details | <ul><li>min: 3 tokens</li><li>mean: 19.41 tokens</li><li>max: 55 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 19.93 tokens</li><li>max: 53 tokens</li></ul> |
 * Samples:
+  | sentence_0                                   | sentence_1                                                       |
+  |:---------------------------------------------|:-----------------------------------------------------------------|
+  | <code>이는 마케팅 관리자가 사용하는 개념과 도구 그리고 그들이</code> | <code>텍스트 관련 부분 리딩 위험과 위기관리 오리엔테이션 위험과 위험 사회텍스트 관련</code>        |
+  | <code>이는 마케팅 관리자가 사용하는 개념과 도구 그리고 그들이</code> | <code>프로세스 관리 파일 시스템 디스크 관리와 디스크 스케줄링 창립 주년 기념일</code>           |
+  | <code>이는 마케팅 관리자가 사용하는 개념과 도구 그리고 그들이</code> | <code>I PenFin 제장 연금기금의 이자율리스크 관리 II PenFin 제장 연금기금의 자산관리</code> |
 * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
   ```json
   {
 ### Training Logs
 | Epoch  | Step | Training Loss |
 |:------:|:----:|:-------------:|
+| 0.0900 | 500  | 1.3127        |
+| 0.1801 | 1000 | 0.9609        |
+| 0.2701 | 1500 | 0.8853        |
+| 0.3601 | 2000 | 0.812         |
+| 0.4501 | 2500 | 0.7371        |
+| 0.5402 | 3000 | 0.698         |
+| 0.6302 | 3500 | 0.6728        |
+| 0.7202 | 4000 | 0.6489        |
+| 0.8102 | 4500 | 0.6113        |
+| 0.9003 | 5000 | 0.5993        |
+| 0.9903 | 5500 | 0.5864        |
 ### Framework Versions

added_tokens.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "jh8416/my_ewha_model_2024_1",
   "architectures": [
     "RobertaModel"
   ],
@@ -25,5 +25,5 @@
   "transformers_version": "4.43.3",
   "type_vocab_size": 1,
   "use_cache": true,
-  "vocab_size": 42735
 }

 {
+  "_name_or_path": "jhgan/ko-sroberta-multitask",
   "architectures": [
     "RobertaModel"
   ],
   "transformers_version": "4.43.3",
   "type_vocab_size": 1,
   "use_cache": true,
+  "vocab_size": 39775
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddaa603f5d9031b1445529e27cb5a241b2b9ab38109083a5e3fc369c8b1cfcfb
-size 475472744

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f189d11fa9e9c4fc8e26af5609abe1539f617d18d1d53851f172f90a79003e5
+size 466379624

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

The diff for this file is too large to render. See raw diff