jh8416 commited on
Commit
124fbd1
1 Parent(s): 4b8b6e7

Update model on 2024-08-19 03:59:59

Browse files
Files changed (6) hide show
  1. README.md +47 -47
  2. added_tokens.json +0 -0
  3. config.json +2 -2
  4. model.safetensors +2 -2
  5. tokenizer.json +0 -0
  6. tokenizer_config.json +0 -0
README.md CHANGED
@@ -1,5 +1,5 @@
1
  ---
2
- base_model: jh8416/my_ewha_model_2024_1
3
  datasets: []
4
  language: []
5
  library_name: sentence-transformers
@@ -9,45 +9,46 @@ tags:
9
  - sentence-similarity
10
  - feature-extraction
11
  - generated_from_trainer
12
- - dataset_size:97764
13
  - loss:MultipleNegativesRankingLoss
14
  widget:
15
- - source_sentence: for renewable energy 수소에너지수전해 연료전지의 기초 Basics of hydrogen energy
16
  sentences:
17
- - of texts such as society culture and fine arts students are
18
- - 전기화학의 환경공학 적용 D 미생물 연료전지 현충일 기말고사 휴강 기말 발표
19
- - We will examine different policy areas such as income protection family
20
- - source_sentence: 강의 소개와 운영방식 안내 한국현대사를 보는 시각 시대구분과
 
21
  sentences:
22
- - 기말평가 강좌소개 중국고전산문 강좌의 교과목표와 수업운영방식 중국고전산문의 역사와 갈래 역사산문과 철학산문
23
- - 시간과 장소는 추후 공지 자기장의 원천 자기장의 원천 장
24
- - 관점에서 환자와의 공감과 표현 정성애 사망선언의 현장 환자와 보호자 되어보기와 사망선언
25
- - source_sentence: 헤게모니 이후 세계정치경제에서 협력과 불화 서울 인간사랑 제부제부
26
  sentences:
27
- - board Portfolio SNS 계정 개설하기 WIP 차 프로젝트 아이디어
28
- - 전기화학의 환경공학 적용 D 미생물 연료전지 Class 전기화학의 환경공학 적용 D
29
- - 오리엔테이션 사회봉사의 의미와 자세 과제 수업소감문작성 사캠기본교육차소감문작성 과목수강동기 느낀점 까지
30
- - source_sentence: 몽골간 네트워크 공녀와 기황후 임진왜란의 외교사 북학파와 열하일기 중간고사기간 휴강 이화여대박물관정문
31
  sentences:
32
- - 교과목은 마음의 이해와 회복 과정을 설명하는 개념들을 이해하도록 돕는
33
- - 과제 안내 교재 중도중복장애학생 교육의 개관 조별 적용활동
34
- - 질서와 대한제국대면강의 현대 해방과 독립의 외교사대면강의 추석 조선 후기 동아시아 질서와
35
- - source_sentence: 놀이이론고전적 놀이이론 추석 연휴 수업 온라인녹화 수업 예정 강의개요교재 과제물
36
  sentences:
37
- - 놀이이론고전적 놀이이론 추석 연휴 수업 온라인녹화 수업 예정 추석 연휴 개천절
38
- - 우리옛말강독 중근세어 근대 국어의 자료를 선별하여 직접 읽음으로써 국어 자료의
39
- - 주제선정 생물의 생존 전략 I 학생발표 생물의 생존 전략 II 학생발표
40
  ---
41
 
42
- # SentenceTransformer based on jh8416/my_ewha_model_2024_1
43
 
44
- This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [jh8416/my_ewha_model_2024_1](https://huggingface.co/jh8416/my_ewha_model_2024_1). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
45
 
46
  ## Model Details
47
 
48
  ### Model Description
49
  - **Model Type:** Sentence Transformer
50
- - **Base model:** [jh8416/my_ewha_model_2024_1](https://huggingface.co/jh8416/my_ewha_model_2024_1) <!-- at revision 8d524f7713254cc5397b7f94476f0da65a3f5a62 -->
51
  - **Maximum Sequence Length:** 128 tokens
52
  - **Output Dimensionality:** 768 tokens
53
  - **Similarity Function:** Cosine Similarity
@@ -88,9 +89,9 @@ from sentence_transformers import SentenceTransformer
88
  model = SentenceTransformer("jh8416/my_ewha_model_2024_1")
89
  # Run inference
90
  sentences = [
91
- '놀이이론고전적 놀이이론 추석 연휴 수업 온라인녹화 수업 예정 강의개요교재 과제물',
92
- '놀이이론고전적 놀이이론 추석 연휴 수업 온라인녹화 수업 예정 추석 연휴 개천절',
93
- '주제선정 생물의 생존 전략 I 학생발표 생물의 생존 전략 II 학생발표',
94
  ]
95
  embeddings = model.encode(sentences)
96
  print(embeddings.shape)
@@ -145,19 +146,19 @@ You can finetune this model on your own dataset.
145
  #### Unnamed Dataset
146
 
147
 
148
- * Size: 97,764 training samples
149
  * Columns: <code>sentence_0</code> and <code>sentence_1</code>
150
  * Approximate statistics based on the first 1000 samples:
151
  | | sentence_0 | sentence_1 |
152
  |:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
153
  | type | string | string |
154
- | details | <ul><li>min: 6 tokens</li><li>mean: 18.84 tokens</li><li>max: 36 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 18.17 tokens</li><li>max: 39 tokens</li></ul> |
155
  * Samples:
156
- | sentence_0 | sentence_1 |
157
- |:---------------------------------------------------------------------|:-----------------------------------------------------------|
158
- | <code>한국전통도예의 심화과정으로 조형적 요소와 기법상의 특성을 보다 심도깊이 연구하여 작품제작에 활용한다</code> | <code>참관육아종합지원센터 센터의 기능 역할 특성 운영 현충일 교직 실무의</code> |
159
- | <code>한국전통도예의 심화과정으로 조형적 요소와 기법상의 특성을 보다 심도깊이 연구하여 작품제작에 활용한다</code> | <code>프랑스 문학을 연구하면서 사조의 특성과 변천을 작가 작품을</code> |
160
- | <code>한국전통도예의 심화과정으로 조형적 요소와 기법상의 특성을 보다 심도깊이 연구하여 작품제작에 활용한다</code> | <code>FLIPPED LEARNING의 특성상 오프라인 대면수업시 학습자간 토론 그룹활동</code> |
161
  * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
162
  ```json
163
  {
@@ -294,18 +295,17 @@ You can finetune this model on your own dataset.
294
  ### Training Logs
295
  | Epoch | Step | Training Loss |
296
  |:------:|:----:|:-------------:|
297
- | 0.0818 | 500 | 0.7618 |
298
- | 0.1636 | 1000 | 0.7484 |
299
- | 0.2455 | 1500 | 0.7211 |
300
- | 0.3273 | 2000 | 0.6667 |
301
- | 0.4091 | 2500 | 0.6084 |
302
- | 0.4909 | 3000 | 0.5745 |
303
- | 0.5727 | 3500 | 0.5454 |
304
- | 0.6546 | 4000 | 0.5365 |
305
- | 0.7364 | 4500 | 0.5307 |
306
- | 0.8182 | 5000 | 0.4822 |
307
- | 0.9000 | 5500 | 0.47 |
308
- | 0.9818 | 6000 | 0.472 |
309
 
310
 
311
  ### Framework Versions
 
1
  ---
2
+ base_model: jhgan/ko-sroberta-multitask
3
  datasets: []
4
  language: []
5
  library_name: sentence-transformers
 
9
  - sentence-similarity
10
  - feature-extraction
11
  - generated_from_trainer
12
+ - dataset_size:88850
13
  - loss:MultipleNegativesRankingLoss
14
  widget:
15
+ - source_sentence: 또한 관광과 여가활동 자체만이 아니라 그러한
16
  sentences:
17
+ - 첫째 주에 zoom을 통한 온라인 작품발표가 예정되어 있습니다
18
+ - 균형계획 교재 실험계획법과 분산분석 일원분산분석 비균형계획 교재 실험계획법과 분산분석
19
+ - 농촌관광지의사회적변화 농촌경제의재구조화 강의소개및평가안내 국제관광과관광소비 관광과세계화 관광과여가에대한사회적접근 관광과여가산업 관광의상품화
20
+ 국가의개입과통제 임시공휴일 기말고사본
21
+ - source_sentence: 고학년 수강생 학년과 독일어 수준이 상대적으로 높은 학생들을 대상으로 한다 교재
22
  sentences:
23
+ - 변화할까 의미 변화 화행 함축 발화의 숨겨진 의미를
24
+ - 제이콥스 원숭이 푸른 수염 앤절라 카터 피로 물든
25
+ - 정의 여가의 역사적 변천 여가의 상대적 기준 레크리에이션의 개념 대상 활동
26
+ - source_sentence: KMOOC비정형데이터분석소셜네트워크의이해및분석 과목은 소셜 네크워크에 대한
27
  sentences:
28
+ - 논리적 사고는 추상적이고 논증적이기에 어렵고 복잡하다고 생각하기 쉽다
29
+ - 조각 매체와 형식의 확장 부드러운 조각비정형 페미니즘 미학과 조각 세기 중반
30
+ - Verkehr 계속 계속 기말시험 온라인 오픈북 시험 계속 Lektion Post und
31
+ - source_sentence: 부모교육의 이론 원가족의 영향에 대한 통찰사티어 가족이해 가족 의사소통 가족
32
  sentences:
33
+ - 유체 정역학II 부양체의 안정성 유체의 상대적 평형 유체 운동학II 손실수두와 동력
34
+ - Im Restaurant 기말시험 준비 기말시험 결과발표 분반 온라인 테스트 참여 필수
35
+ - 과정 속에서 파악하여 글로벌화에 대한 통찰력과 분석력을 기른다
36
+ - source_sentence: 지급 건강보험급여 현물급여와 현금급여 노인장기요양제도 노인장기요양보험의 개요 과제 건강보험의 이론과 실제
37
  sentences:
38
+ - 육체의 탄생 권한솔 년대 조선인 실업학교
39
+ - 이론 소개 이태용 온라인 강의 인장 실험 이태용 장소 공학관 B
40
+ - 세기 마드리갈과 세속노래 프랑스 독일 영국 기악음악의
41
  ---
42
 
43
+ # SentenceTransformer based on jhgan/ko-sroberta-multitask
44
 
45
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [jhgan/ko-sroberta-multitask](https://huggingface.co/jhgan/ko-sroberta-multitask). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
46
 
47
  ## Model Details
48
 
49
  ### Model Description
50
  - **Model Type:** Sentence Transformer
51
+ - **Base model:** [jhgan/ko-sroberta-multitask](https://huggingface.co/jhgan/ko-sroberta-multitask) <!-- at revision ab957ae6a91e99c4cad36d52063a2a9cf1bf4419 -->
52
  - **Maximum Sequence Length:** 128 tokens
53
  - **Output Dimensionality:** 768 tokens
54
  - **Similarity Function:** Cosine Similarity
 
89
  model = SentenceTransformer("jh8416/my_ewha_model_2024_1")
90
  # Run inference
91
  sentences = [
92
+ '지급 건강보험급여 현물급여와 현금급여 노인장기요양제도 노인장기요양보험의 개요 과제 건강보험의 이론과 실제',
93
+ '이론 소개 이태용 온라인 강의 인장 실험 이태용 장소 공학관 B',
94
+ '육체의 탄생 권한솔 년대 조선인 실업학교',
95
  ]
96
  embeddings = model.encode(sentences)
97
  print(embeddings.shape)
 
146
  #### Unnamed Dataset
147
 
148
 
149
+ * Size: 88,850 training samples
150
  * Columns: <code>sentence_0</code> and <code>sentence_1</code>
151
  * Approximate statistics based on the first 1000 samples:
152
  | | sentence_0 | sentence_1 |
153
  |:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
154
  | type | string | string |
155
+ | details | <ul><li>min: 3 tokens</li><li>mean: 19.41 tokens</li><li>max: 55 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 19.93 tokens</li><li>max: 53 tokens</li></ul> |
156
  * Samples:
157
+ | sentence_0 | sentence_1 |
158
+ |:---------------------------------------------|:-----------------------------------------------------------------|
159
+ | <code>이는 마케팅 관리자가 사용하는 개념과 도구 그리고 그들이</code> | <code>텍스트 관련 부분 리딩 위험과 위기관리 오리엔테이션 위험과 위험 사회텍스트 관련</code> |
160
+ | <code>이는 마케팅 관리자가 사용하는 개념과 도구 그리고 그들이</code> | <code>프로세스 관리 파일 시스템 디스크 관리와 디스크 스케줄링 창립 주년 기념일</code> |
161
+ | <code>이는 마케팅 관리자가 사용하는 개념과 도구 그리고 그들이</code> | <code>I PenFin 제장 연금기금의 이자율리스크 관리 II PenFin 제장 연금기금의 자산관리</code> |
162
  * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
163
  ```json
164
  {
 
295
  ### Training Logs
296
  | Epoch | Step | Training Loss |
297
  |:------:|:----:|:-------------:|
298
+ | 0.0900 | 500 | 1.3127 |
299
+ | 0.1801 | 1000 | 0.9609 |
300
+ | 0.2701 | 1500 | 0.8853 |
301
+ | 0.3601 | 2000 | 0.812 |
302
+ | 0.4501 | 2500 | 0.7371 |
303
+ | 0.5402 | 3000 | 0.698 |
304
+ | 0.6302 | 3500 | 0.6728 |
305
+ | 0.7202 | 4000 | 0.6489 |
306
+ | 0.8102 | 4500 | 0.6113 |
307
+ | 0.9003 | 5000 | 0.5993 |
308
+ | 0.9903 | 5500 | 0.5864 |
 
309
 
310
 
311
  ### Framework Versions
added_tokens.json CHANGED
The diff for this file is too large to render. See raw diff
 
config.json CHANGED
@@ -1,5 +1,5 @@
1
  {
2
- "_name_or_path": "jh8416/my_ewha_model_2024_1",
3
  "architectures": [
4
  "RobertaModel"
5
  ],
@@ -25,5 +25,5 @@
25
  "transformers_version": "4.43.3",
26
  "type_vocab_size": 1,
27
  "use_cache": true,
28
- "vocab_size": 42735
29
  }
 
1
  {
2
+ "_name_or_path": "jhgan/ko-sroberta-multitask",
3
  "architectures": [
4
  "RobertaModel"
5
  ],
 
25
  "transformers_version": "4.43.3",
26
  "type_vocab_size": 1,
27
  "use_cache": true,
28
+ "vocab_size": 39775
29
  }
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ddaa603f5d9031b1445529e27cb5a241b2b9ab38109083a5e3fc369c8b1cfcfb
3
- size 475472744
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8f189d11fa9e9c4fc8e26af5609abe1539f617d18d1d53851f172f90a79003e5
3
+ size 466379624
tokenizer.json CHANGED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json CHANGED
The diff for this file is too large to render. See raw diff