seongil-dn
commited on
Commit
•
9e92f3d
1
Parent(s):
26bd593
Add new SentenceTransformer model
Browse files- .gitattributes +1 -0
- 1_Pooling/config.json +10 -0
- README.md +550 -0
- config.json +28 -0
- config_sentence_transformers.json +10 -0
- model.safetensors +3 -0
- modules.json +20 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +51 -0
- tokenizer.json +3 -0
- tokenizer_config.json +62 -0
.gitattributes
CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
36 |
+
tokenizer.json filter=lfs diff=lfs merge=lfs -text
|
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 1024,
|
3 |
+
"pooling_mode_cls_token": true,
|
4 |
+
"pooling_mode_mean_tokens": false,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,550 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
tags:
|
3 |
+
- sentence-transformers
|
4 |
+
- sentence-similarity
|
5 |
+
- feature-extraction
|
6 |
+
- generated_from_trainer
|
7 |
+
- dataset_size:451949
|
8 |
+
- loss:CachedMultipleNegativesRankingLoss
|
9 |
+
base_model: BAAI/bge-m3
|
10 |
+
widget:
|
11 |
+
- source_sentence: 어느 정도의 인원을 대상으로 25일에 도착한 예방주사를 접종할 수 있어?
|
12 |
+
sentences:
|
13 |
+
- “길고 길었던 ‘코로나19 터널’을 빠져 나오는 신호탄이 되길 간절히 기원합니다.” 코로나19 종식 염원을 담은 아스트라제네카(AZ) 백신이
|
14 |
+
26일부터 접종에 들어간다. 접종이 하루 앞으로 다가오면서 일선 보건당국도 비상 근무체제에 돌입했다. 25일 낮 12시10분께 AZ 백신을
|
15 |
+
실은 운반차량이 군경의 호위 속에 안양시 동안구보건소 앞에 도착하자, 보건소 직원들이 건물 앞까지 나와 백신을 맞았다. ‘생물학적 제제 출하증명서’가
|
16 |
+
오가고 아이스박스가 열리자, 투명한 5밀리리터 통 위에 빨간 캡이 씌워진 AZ가 그 모습을 드러냈다. 보건소 직원들은 조심스럽게 백신을 하나
|
17 |
+
하나 들추며 혹시라도 깨지거나 파손된 물건은 없는지 상태를 살폈다. 점검을 마친 백신이 곧장 보건소 3층에 마련된 전용 냉장고로 들어가면서
|
18 |
+
이날 백신 상륙 작전은 약 5분 만에 마무리됐다. 이날 들어온 1차 물량은 30바이알, 300명분이다. 한숨 돌릴 틈도 없이 입고식을 마친
|
19 |
+
직원들은 보건소장실에 모여 ‘예방접종 후 이상반응 관리’ 교육을 받았다. 26일 오전 9시부터는 동안구 9개 요양시설 종사자 중 일부인 1개소,
|
20 |
+
20명이 보건소를 방문해 첫 접종을 받을 예정이다. 동안구보건소 관계자는 “접종을 차질 없이 진행하기 위해 만반의 준비를 마쳤다”면서 “가장
|
21 |
+
중요한 백신을 보관하는 전용 냉장고는 영상 2~8도를 항시 유지하고 있으며 정전에도 대비하기 위해 무정전 전원장치(UPS)까지 갖춰져 있다”고
|
22 |
+
말했다. 이와 함께 수원시 영통구보건소에도 20바이알의 AZ 백신이 무사히 도착했다. 보건소 1층에 마련된 접종실엔 안내문이 비치됐고, 직원들은
|
23 |
+
예진표 작성부터 신분증과 체온 확인, 예진 후 접종, 이상반응 모니터링, 확인증 발급까지 방문자가 거쳐야 할 동선을 한 번 더 꼼꼼히 점검했다.
|
24 |
+
영통구보건소 관계자는 “소방서와 연계한 긴급 출동 체계가 마련돼 있다”면서 “만일의 상황을 대비해 자동제세동기(AED) 점검을 마쳤으며 응급키트도
|
25 |
+
구비해놨다”고 밝혔다.
|
26 |
+
- 사법농단 의혹 재판에서 6연속 무죄를 끊고 ‘1호 유죄’가 나온 배경에는 “대법원장과 법원행정처는 특정 재판에서 명백한 잘못이 있을 경우 판사
|
27 |
+
지적권한이 있다”는 재판부의 독특한 판시가 있다. 앞서 임성근 전 부산고법 부장판사가 1심에서 ‘위헌적이지만, 남용할 직권 자체가 없었다’며
|
28 |
+
무죄 선고를 받은 것과는 상반된다. 서울중앙지법 형사32부(부장판사 윤종섭)는 23일 대법원장과 법원행정처에는 재판사무의 핵심영역에 대해 명백한
|
29 |
+
잘못이 있을 경우 담당 판사의 잘못을 ‘지적’할 수 있는 권한이 있다고 밝혔다. 이민걸 전 법원행정처 기획조정실장과 이규진 전 대법원 양형위원회
|
30 |
+
상임위원의 일부 재판개입 등 행위(직권남용)를 유죄 판단하면서다. 사법농단 관련 재판에서는 처음 나온 판시다. 재판부는 전제로 “직업적으로
|
31 |
+
충분히 단련하지 못하거나 나태해 쟁점이 별로 없는 것만 우선 처리해 장기미제를 만드는 판사가 있을 수 있다”고 말했다. 그러면서 “이런 경우에도
|
32 |
+
재판 독립을 이유로 누구도 지적을 못한다면 국민의 재판청구권 보장과 충돌할 수 있다”고 했다. 헌법 103조에 따른 법관 독립이 ‘신성불가침’은
|
33 |
+
아니라는 얘기다. 재판부는 이를 뒷받침할 명시적 규정은 없지만 헌법과 법원조직법 해석상 명백한 잘못을 전제로 사법행정사무를 총괄하는 대법원장과
|
34 |
+
행정처에 판사를 지적할 권한이 있다고 봤다. 선뜻 이해하기 어려운 이 법리는 경계가 애매모호한 직권남용죄의 특성 때문에 도출된 것이다. 직권남용은
|
35 |
+
‘남용될 직권’의 존재를 전제한다. 표면상 이유로는 수긍할 수 있지만 실제로 따져보면 위법하다는 까다로운 조건을 만족해야 한다. 임 전 부장판사의
|
36 |
+
경우 “각 재판관여행위가 위헌적”이라는 판단에도 불구하고 “(서울중앙지법 형사수석부장판사 당시의) 일반적 직무권한에 속한다고 해석될 여지가
|
37 |
+
없다”며 1심에서 무죄를 선고 받았다. 아울러 재판부는 “공무원의 직무범위를 벗어난 ‘월권행위’도 직무와 상당한 관련성이 인정된다면 직권남용이
|
38 |
+
성립될 수 있다”며 직권남용 범위를 상대적으로 넓게 판단했다. 직권의 범주를 형식적으로만 봐선 안 된다는 취지다. 이 전 실장 등은 이를 엄격하게
|
39 |
+
판단해야 한다며 검찰과 치열한 공방을 벌였지만 1심에서 받아들여지지 않았다. 재판부는 이 같은 법리에 따라 헌법재판소 파견 법관을 통한 내부
|
40 |
+
기밀 수집, 한정위헌 취지의 위헌제청 결정 사건과 옛 통합진보당 국회의원·비례대표 지방의회의원 관련 행정소송에 대한 재판개입 등에 대한 일부
|
41 |
+
직권남용 혐의를 유죄로 판단했다. 검찰은 이번 재판을 양승태 전 대법원장 등 ‘수뇌부’를 단죄할 여지를 열어줄 계기로 보고 있다. 검찰 관계자는
|
42 |
+
“재판부가 앞선 사법농단 관련 재판과 달리 직권남용 범위를 넓게 봤다”며 “사법부 윗선의 유죄 가능성을 높인 판결”이라고 평가했다.
|
43 |
+
- '65세 이상 73%, 6-59개월 54% 인플루엔자 접종 마쳐, 가능하면 11월 15일 이전 완료하세요~ □ 또한, 남은 물량은 충분하나,
|
44 |
+
일시적으로 지역적 부족상황이 발생할 수 있어 그에 대한 백신수급 운영 대책도 준비하고 있다고 덧붙였다. ○ 올해 처음으로 부족한 공급에 신속히
|
45 |
+
대처하기 위해 시도 및 질병관리본부에서 직접 공급할 수 있는 추가 물량*을 확보하였으며, 상황 발생 시 신속히 조치할 예정이다. * 추가확보물량:
|
46 |
+
시·도0.25㎖5,220 도즈, 0.5㎖80,680 도즈/ 본부0.25㎖40,000 도즈, 0.5㎖40,000 도즈
|
47 |
+
|
48 |
+
□ *** 예방접종관리과장은 “아직까지 접종 받지 않은 어르신 및 어린이 보호자들은 지정의료기관 방문 전에 꼭 관할 보건소, 질병관리본부 콜센터(☎1339)
|
49 |
+
및 보건복지콜센터(☎129)로 문의하여 당일 접종이 가능한 의료기관을 안내받거나, 예방접종 도우미 홈페이지 및 스마트폰 앱*에서 확인 후 방문”
|
50 |
+
해달라고 당부했다. * 질병관리본부 예방접종도우미 홈페이지((https://nip.cdc.go.kr) 접속> 일반인(자세히 보기)> 예방접종도우미
|
51 |
+
연결), 예방접종도우미 스마트폰 앱의 의료기관 검색
|
52 |
+
|
53 |
+
○ 또한, “인플루엔자 예방접종의 효과는 균주, 유행 특성 등에 따라 건강한 성인에서 70-90%, 소아에서 50-95% 범위 내로 다양한
|
54 |
+
것으로 알려져 있어,
|
55 |
+
|
56 |
+
- 30초 이상 손씻기, 기침이나 재채기를 할 때 휴지나 옷깃으로 입을 가리는 기침예절 준수 등의 예방 수칙 실천을 병행하고,
|
57 |
+
|
58 |
+
- 기침, 발열, 근육통 등 인플루엔자 의심 증상이 발생할 경우 사람이 많이 모인 곳을 피하고 의료기관을 늦지 않게 방문하여 진료받는 것이
|
59 |
+
중요하다”며 덧붙였다. ○ 아울러, “무료접종 대상자 외에 임신부, 만성질환자, 50~64세 인구 등의 인플루엔자 고위험군도 감염 예방을 위해
|
60 |
+
본격적인 인플루엔자 유행 전에 예방접종이 필요하다”고 밝혔다.'
|
61 |
+
- source_sentence: 길어지는 코로나를 준비하기 위해 조선대학교가 시행하고 있는 과정은 뭐야?
|
62 |
+
sentences:
|
63 |
+
- 조선대학교병원(병원장 정종훈)은 코로나19 장기화 및 재확산 대비를 위한 중증환자 전담 간호사 양성 교육을 시작했다고 2일 밝혔다. 보건복지부와
|
64 |
+
국립중앙의료원이 주최하고 조선대병원이 주관하는 이번 양성 교육 과정은 체계적인 간호교육 시스템을 통해 중증 환자 담당 간호사 양성을 목표로
|
65 |
+
하고 있다. 지난 1일 병원 7층 세미나A실에서 시작된 '중증환자 전담 간호사' 양성 교육은 4주간 진행되며 교육 내용은 중환자 간호 이론교육
|
66 |
+
및 모의실습과 중환자실 임상실습으로 구성된다. 이론교육 및 모의실습에는 △중환자의 신체사정 및 기본간호 △호흡기계 중재 및 간호 △특수처치
|
67 |
+
및 응급간호 등 중환자 간호 공통교육 이론강의 등을 비롯해 개인보호구 착탈의 방법 등이 포함됐다. 중환자실 실습을 통해서는 실제 중환자실 현장에서
|
68 |
+
개인별로 1:1 프리셉터가 배정되어 습득한 내용을 바탕으로 밀착 교육을 진행한다. 유윤정 조선대병원 간호부장은 "코로나19 장기화 및 재확산
|
69 |
+
대비를 위해 진행하는 이번 양성 교육을 통해 전문성 있는 중환자 전담 인력을 양성하고 간호역량을 강화할 수 있을 것으로 보인다"며 "중환자
|
70 |
+
간호교육 인프라와 인적 자원 확보를 위해 최선을 다하겠다"고 밝혔다.
|
71 |
+
- 조선대학교는 지난 25일 총장실에서 우수 행정서비스 운영 사례를 발굴해 구성원들에게 공유, 확산시키고자 '대학행정서비스 우수사례 및 인증 시상식'을
|
72 |
+
진행했다고 30일 밝혔다. 지난 2019년부터 부서컨설팅을 수행 중인 조선대는 올해 18개 부서(누적 45개)에 대한 컨설팅을 수행한다. 5년
|
73 |
+
주기로 대학 내 전 부서에 대한 컨설팅을 진행하는 것이 목표다. 조선대가 지난 2월 수행한 대학행정서비스 컨설팅 결과, 교수학습지원센터의 'E-Learning지원팀'이
|
74 |
+
코로나19에 적극적으로 대응한 우수사례로 선정됐다. E-Learning지원팀은 코로나19 속 온라인수업에 대한 수요 및 요구사항을 수집해 반영했다.
|
75 |
+
또 온라인수업 콘텐츠를 제작해 수시로 안내하고 우수콘텐츠 공모전 시행으로 우수사례를 공유해 온라인 수업의 전반적인 질을 향상시키는 데 기여했다.
|
76 |
+
또 온라인시험 및 수업 운영 모니터링단을 꾸려 수업의 질 관리에 적극 노력했다. 조선대학교는 E-Learning지원팀이 진행한 온라인 수업의
|
77 |
+
질 관리 결과를 교육혁신원 홈페이지 및 업무포털을 활용해 '2020학년도 대학 교육행정 서비스 CQI를 위한 부서 컨설팅 결과 보고서'로 공유할
|
78 |
+
예정이다.
|
79 |
+
- 김천상무가 최하위 부천과 원정 경기서 승점 1점을 보태는 데 그쳐 순위상승 기회를 놓쳤다. 김천은 지난 8일 부천종합운동장에서 열린 ‘하나원큐
|
80 |
+
K리그2 2021’ 11R 부천FC와의 경기에서 득점없이 0-0무승부를 기록했다. 김천은 조규성-오현규-강지훈이 쓰리톱, 심상민-정현철-박용우-안태현
|
81 |
+
중원, 이명재-정승현-하창래가 쓰리백에 나서는 3-4-3전술로 부천을 맞았다. 특히 이날 골키퍼에는 구성윤이 처음으로 장갑을 꼈다. 양팀은
|
82 |
+
경기 휘슬과 함께 치열한 중원다툼에 나서 전반 7분 부천 안재준이 먼저 날카로운 슛을 날리자 김천도 오현규가 12분과 18분 잇따라 위협적인
|
83 |
+
슛으로 맞받아쳤다. 오현규의 슛으로 조금씩 공세의 강도를 높이기 시작한 김천은 32분 이명재가 회심의 슛을 쐈으나 골대를 살짝 넘어갔으며,
|
84 |
+
39분에는 박용우가 프리킥 슛을 쐈지만 부천 수비수 강의빈에 막히면서 전반을 0-0으로 마쳤다. 김천은 후반들어서도 공격이 여의치 않자 7분
|
85 |
+
강지훈 대신 정재를 투입해 측면 공세를 높였고, 11분과 15분 안태현과 정재희 잇따라 부천 골문을 노렸지만 무위에 그쳤다. 좀처럼 득점 찬스를
|
86 |
+
만들지 못하던 김천은 31분 부천 한지호에게 골을 허용했으나 VAR 판독으로 무효가 되면서 위기를 넘겼다. 김천은 후반 44분 이명재가 결정적인
|
87 |
+
문전 슈팅을 날렸지만 부천 골키퍼 전종혁의 선방에 막히는 등 막판 파상적인 공세를 펼쳤지만 득점을 만들지 못했다.
|
88 |
+
- source_sentence: 반도체 양성에 대한 정부의 후원은 언제 끝날 예정이야?
|
89 |
+
sentences:
|
90 |
+
- 반도체 산업의 정치적 요인을 분석한 결과, 초기에는 반도체 산업의 활성화를 위해 대형 국책사업 추진 등 전폭적인 지원사업이 이루어져왔으나,
|
91 |
+
현재 반도체와 관련된 예산 등 정부지원은 상대적으로 감소하고 있는 것으로 나타났다 (한국산업기술진흥원 2017). 그러나 정부는 반도체 산업의
|
92 |
+
성장을 지원하기위해 다각적인 측면에서 노력 중에 있다. 관련 업종별 ․ 수준별 특성을 고려한 차별화된 스마트공장 지원 강화를 통하여 뿌리 등
|
93 |
+
16개 등의 업종별 ‘대표 스마트공장’(30개, ~’22년) 및 고도화를 통한 스마트공장 프리미엄 5,000개(’22년) 구축을 추진하고자
|
94 |
+
하였으며, SW ․ 제어기기 등의 스마트 제조 플랫폼 개발을 통하여 반도체 산업의 재도약을 추진하고 있다(산업통상자원부 2017). 뿐만 아니라,
|
95 |
+
지능형반도체산업과 융합 가능한 임베디드 SW 산업 발전을 위해 다양한 정책 사업을 추진하고 있다(한국산업기술진흥원 2017).
|
96 |
+
- 정부가 인공지능(AI), 전기차 등에 들어가는 핵심 부품인 차세대 전력 반도체 육성에 본격적으로 나선다. 2025년까지 차세대 전력 반도체
|
97 |
+
상용화 제품을 5개 이상 개발하고, 6∼8인치 파운드리(위탁생산) 인프라 구축도 추진한다. 정부는 1일 제7차 혁신성장 빅3 추진회의를 열고
|
98 |
+
이런 내용을 담은 '차세대 전력 반도체 기술개발 및 생산역량 확충 방안'을 발표했다. 전력 반도체란 전력의 변환·변압·안정·분배·제어를 수행하는
|
99 |
+
반도체를 말하며, 차세대 전력 반도체는 실리콘보다 전력 효율과 내구성이 뛰어난 3대 신소재 웨이퍼로 제작된 반도체를 뜻한다. 인공지능(AI),
|
100 |
+
5G나 고온·고압 내구성이 필요한 전기차, 신재생에너지 발전의 인버터 등에 적용되는 필수 부품이다. 앞으로 전자기기 수요가 확대되고 전력 소비가
|
101 |
+
늘 것으로 예상되면서 미래 성장 가능성이 높은 분야로 꼽힌다. 산업부에 따르면 글로벌 전력 반도체 시장 규모는 2019년 450억 달러에서
|
102 |
+
2023년 530억 달러 규모로 성장할 것으로 전망됐다. 이에 따라 미국과 중국, 일본 등도 다양한 정책적 지원을 추진 중이다. 우리 정부도
|
103 |
+
2017년부터 총 830억 원 규모의 '파워반도체 상용화 사업'을 진행 중이다. 그러나 국내 전력 반도체 시장 규모는 약 20억 달러 규모로,
|
104 |
+
기술력 부족과 해외 기업의 특허 선점으로 수요의 90% 이상을 수입에 의존하는 실정이다. 이에 정부는 2025년까지 글로벌 수준의 경쟁력을
|
105 |
+
확보하기 위해 상용화 제품 개발, 기반 기술 강화, 미래 제조공정 확보 등을 본격적으로 지원하기로 했다. 국내 수요기업과 연계한 과제를 발굴해
|
106 |
+
차세대 전력 반도체 상용화 제품을 5개 이상 개발할 방침이다. 현재 실리콘 소재의 한계를 극복하기 위해 실리콘카바이드(SiC), 질화갈륨(GaN),
|
107 |
+
갈륨 옥사이드(Ga2O3) 등 3대 신소재 응용기술을 개발하고, 국내 기업의 소재·웨이퍼 기술 확보를 지원할 방침이다. 고집적·고성능 차세대
|
108 |
+
전력 반도체 개발을 위해 파워 집적회로(IC) 설계 기술개발을 지원한다. 아울러 차세대 전력 반도체 관련 파운드리 서비스를 확대하기 위해 국내
|
109 |
+
파운드리와 6∼8인치 기반의 양산 공정을 구축하는 방안도 추진한다. 성윤모 산업부 장관은 "AI, 5G 등 신기술 구현과 자율차, 신재생 등
|
110 |
+
미래 성장 분야의 활성화를 위해선 전력의 효율적인 관리가 필수이며, 차세대 전력 반도체는 이를 위한 핵심 부품"이라며 "아직 초기인 이 분야
|
111 |
+
시장을 선점하고 미래 경쟁력을 확보하기 위해 R&D, 인프라 등을 적극 지원할 계획"이라고 말했다.
|
112 |
+
- 근로시간은 짧지만 국민 소득은 높은 국가들을 분석해 보니 노동 유연성과 생산성이 높다는 연구결과가 나왔다. 전국경제인연합회 산하 한국경제연구원은
|
113 |
+
경제협력개발기구(OECD) 통계와 통계청 데이터를 이용해 우리나라와 덴마크ㆍ노르웨이ㆍ독일ㆍ네덜란드 4개국의 노동생산성 등을 비교한 결과 이같이
|
114 |
+
나타났다고 29일 밝혔다. 한경연에 따르면 이들 국가의 평균 연간 근로시간은 1,396시간이었고, 평균 1인당 국민총소득은 6만187달러로
|
115 |
+
집계됐다. 반면 한국은 이들 국가보다 1.4배(1,967시간) 더 길게 일했지만, 소득은 3만2,115달러로 절반 수준이었다. 한경연은 이들
|
116 |
+
유럽 4국의 특징을 △높은 고용률 △높은 노동생산성 △높은 노동유연성 △시간제 근로 활성화 △높은 수준의 인적자원이라고 정리했다. 이들 국가의
|
117 |
+
평균 고용률은 76.4%로 한국(66.8%)보다 9.6%포인트 높았다. 특히 네덜란드와는 11.4%포인트 차이가 났다. 우리나라가 네덜란드
|
118 |
+
수준의 고용률을 달성하려면 418만6,000명의 일자리가 더 만들어져야 한다고 한경연은 분석했다. 시간당 노동생산성도 한국(40.5달러)은
|
119 |
+
이들 국가 평균(73.3달러)에 크게 못 미쳤다. 노르웨이는 84.3달러로 한국보다 2배 이상 높았다. 세계경제포럼(WEF) 노동시장 유연성
|
120 |
+
평가에서도 한국 점수는 크게 낮았다. 한국은 54.1점을 받아 OECD 37개국 중 35위에 그친 반면 4개 국가의 평균 점수는 68.9점이었다.
|
121 |
+
가장 높은 덴마크(71.4점)는 OECD 3위에 올랐다. 아울러 이들 국가는 시간제 근로 비율이 높았는데 네덜란드는 37.0%에 달해 한국(14.0%)보다
|
122 |
+
2.6배 높은 것으로 나타났다. 한경연은 이들 국가가 적게 일하면서 많이 벌 수 있었던 비결은 노동시장 개혁을 통해 노동 유연성을 확보했기
|
123 |
+
때문이라고 분석했다. 추광호 한경연 경제정책실장은 “적게 일하고 많이 버는 국가들은 시간제 근로 활성화, 노동 규제 완화 등을 통해 고용률을
|
124 |
+
높이고, 높은 생산성을 토대로 소득을 높였다”고 말했다. 한편 한경연이 우리나라 산업별 소득과 근로시간을 비교한 결과 적게 일하고 많이 버는
|
125 |
+
산업은 금융 및 보험업으로 나타났다. 한경연에 따르면 금융 및 보험업은 전체 월 임금 총액인 372만원보다 1.6배 높은 593만원을 벌었지만,
|
126 |
+
월 근로시간은 9시간 짧았다. 반면 숙박 및 음식점업은 이보다 적은 234만원을 벌지만 12시간 더 일하는 것으로 나타났다.
|
127 |
+
- source_sentence: E-GMP의 세번째 배터리 공급 회사로 어느 곳이 선발됐어?
|
128 |
+
sentences:
|
129 |
+
- 손흥민(손흥민)의 골이 30일째 침묵한 토트넘이 시즌 첫 3연패에 빠지며 8위로 추락했다. 토트넘은 5일(한국시간) 영�� 런던의 토트넘 홋스퍼
|
130 |
+
스타디움에서 열린 첼시와 2020-2021 잉글랜드 프로축구 프리미어리그 22라운드 홈경기에서 전반 24분 조르지뉴에게 내준 페널티킥 결승
|
131 |
+
골을 만회하지 못하고 0-1로 패했다. 해리 케인의 부상 결장에 손흥민 골침묵까지 이어진 토트넘은 이번 시즌 첫 3연패이자 홈 경기 2연패로
|
132 |
+
승점 33에 머물면서 8위로 한 계단 내려앉았다. 지난달 6일 브렌트퍼드(2부)와 EFL컵 준결승전에서 득점을 맛본 손흥민은 이후 30일째
|
133 |
+
득점 신고를 하지 못하며 6경기(정규리그 5경기ㆍFA컵 1경기) 연속 무득점 행진을 이어갔다. 손흥민의 이번 시즌 공격포인트는 16골 10도움(EPL
|
134 |
+
12골 6도움ㆍ유로파리그 3골 3도움·리그컵 1골ㆍFA컵 1도움)이다. 아울러 통계전문 옵타에 따르면 토트넘의 조제 모리뉴 감독은 2000년
|
135 |
+
9월 벤피카(포르투갈)에서 감독직을 시작한 이후 자신의 사령탑 커리어 통산 327번째 홈 경기에서 처음으로 ‘홈경기 2연패’를 당하는 아쉬움까지
|
136 |
+
곱씹어야 했다. 반면 첼시는 승점 36(골 득실+13)으로 에버턴(승점 36ㆍ골 득실+6)을 골득실차로 따돌리고 8위에서 6위로 올라섰다.
|
137 |
+
- ‘포항 배터리 규제자유특구’가 중소벤처기업부의 2020년 규제자유특구 운영성과 평가에서 전국 유일 2년 연속 최고등급인 ‘우수’ 특구로 21일
|
138 |
+
선정됐다. 이번 중소벤처기업부의 규제자유특구 운영성과 평가는 전국 14개 규제자유특구를 대상으로 성과 달성도, 파급효과, 규제특례 활용실적
|
139 |
+
등을 토대로 종합평가를 실시됐으며, 포항 배터리·대구 스마트웰니스·전북 친환경자동차 규제자유특구 3개 특구가 우수 평가를 받았다. 2019년
|
140 |
+
7월 영일만 일반산업단지 및 블루밸리 국가산업단지 일원(556,694.22㎡, 17만평)을 배터리 규제자유특구로 지정받은 이후 포항시는 배터리
|
141 |
+
전후방 기업들에 대한 적극적인 투자유치 활동으로 대규모 투자를 이끌어냈다. GS건설의 배터리 리사이클링 공장 건립, 포스코케미칼의 이차전지
|
142 |
+
인조흑연 음극재 생산공장 건립, 에코프로비엠 등 에코프로 6개 자회사의 양극재 생산공장 건립 등의 투자로 이차전지 밸류체인 구축과 이를 바탕으로
|
143 |
+
배터리 규제자유특구를 미래 유망산업인 배터리산업 육성의 거점으로서의 기반을 마련한 것이 높은 평가를 받았다. 뿐만 아니라, 규제자유특구 실증
|
144 |
+
연구개발 수행과 전기차 배터리 산업 육성 전초 기지 역할을 감당할 이차전지종합관리센터를 107억 원의 사업비를 투입해 블루밸리 국가산업단지
|
145 |
+
규제자유특구 내 건립 하는 등 특구 활성화를 위한 지자체의 적극적인 의지도 높은 평가를 받았다. 이차전지종합관리센터는 이차전지 고도화와 고부가
|
146 |
+
가치화를 통해 배터리 산업을 체계적으로 육성하기 위한 국내 최초, 최대 규모의 인프라이며, 이곳을 배터리 산업 허브로 육성해 배터리 소재,
|
147 |
+
부품, 장비 상용화 기술개발 및 우수 기업 유치 등의 마중물 역할로 지역경제 활성화에 크게 기여할 것이다. 더 나아가 포항시는 국가 전기차
|
148 |
+
사용후 배터리 순환경제 기반 조성 및 배터리 산업 컨트롤 타워 구축을 목표로 추진하고 있는 환경부의 ‘배터리 자원순환 클러스터 구축사업’에도
|
149 |
+
참여해 총력을 기울이고 있다. 포항시는 철강산업의 뒤를 이어 지역의 새로운 먹거리 산업으로 이차전지산업을 육성하기 위해 중소벤처기업부, 환경부
|
150 |
+
등 중앙 부처와 긴밀한 협력체계를 유지하면서 이차전지분야 기술개발, 기술실증, 기업육성의 전주기적 기업지원 인프라 구축으로 포항을 우리나라의
|
151 |
+
배터리 메카도시로 육성해나갈 계획이다. 이강덕 포항시장은 “중앙부처뿐만 아니라 배터리소재기업인 포스코케미칼과 에코프로, GS건설 등과 적극적인
|
152 |
+
협업으로 이차전지산업 육성을 통해 포항의 발전를 넘어 우리나라 배터리산업 육성에도 큰 기여를 할 수 있도록 행정력을 집중하겠다”라고 전했다.
|
153 |
+
- 중국 전기차용 배터리 업체들이 탈중국화에 속도를 내며 ‘K배터리’를 위협하고 있다. 텃밭인 한국과 유럽 시장에서도 K배터리는 ‘C배터리’(중국산
|
154 |
+
배터리)의 거센 도전에 직면했다. 21일 업계에 따르면 중국 배터리 선두 업체인 CATL은 현대자동차그룹이 최근 선정한 전기차 전용 플랫폼
|
155 |
+
E-GMP 3차 물량 배터리 공급사로 낙찰됐다. 현대차그룹이 2023년 이후 출시 예정인 3개 차종에 대한 배터리 공급사를 선정했는데 SK이노베���션이
|
156 |
+
1종, CATL이 2종을 따낸 것이다. 총 9조원 규모 물량 중 절반 이상을 CATL이 차지한 것으로 알려졌다. 업계 관계자는 “CATL이
|
157 |
+
국내 시장까지 파고든 것은 가격·성능·생산력 측면에서 K배터리와 견줘 충분한 경쟁력을 지니고 있다는 뜻”이라며 “안정적 수급을 위해 배터리
|
158 |
+
공급사를 다변화해야하는 현대차 입장에서 스펙이 맞지 않는 삼성SDI, 코나EV 등 화재로 안전 이슈가 불거진 LG에너지솔루션의 상황을 감안하면
|
159 |
+
CATL을 선택할 수밖에 없었을 것”이라고 말했다. 다만 당초 3차 물량의 핵심으로 꼽혔던 스포츠유틸리티(SUV) 전기차 ‘아이오닉7’에 탑재될
|
160 |
+
배터리 선정은 미뤄졌다. 업계에서는 현대차와 LG에너지솔루션이 인도네시아에 건설을 추진 중인 합작법인이 아이오닉7에 탑재할 배터리를 생산할
|
161 |
+
것이라는 관측이 우세하다. C배터리의 영토 확장은 한국 시장을 넘어 유럽을 정조준하고 있다. 메르세데스 벤츠를 생산하는 독일 완성차 업체 다임러
|
162 |
+
그룹은 지난해 CATL과 배터리 공급은 물론 연구 분야에서도 협력을 강화키로 했다. 업계에 따르면 양사는 향후 다임러 그룹에서 생산하는 모든
|
163 |
+
전기차에 사용되는 배터리를 CATL에 우선 발주하고 CATL이 수주를 거부하는 경우에만 다른 배터리 업체를 통해 공급받는 형태의 계약을 체결한
|
164 |
+
것으로 알려졌다. 이에 대해 업계 관계자는 “차종별로 배터리 업체를 선정하는 기존 방식에서 벗어난 파격적인 형태”라며 “말 그대로 CATL이
|
165 |
+
‘수퍼 을’(갑을 뛰어넘는 영향력을 지닌 을)로 성장했음을 보여주는 대목”이라고 말했다. ‘세계의 자동차 시장’이라 불리는 중국의 막대한 전기차
|
166 |
+
생산량에다 정부의 전폭적인 지원을 바탕으로 성장한 CATL은 지난해 비중국 시장 점유율을 대폭 늘렸다. 배터리 시장조사 기관인 SNE리서치에
|
167 |
+
따르면 2019년 중국을 제외한 글로벌 전기차 시장에서 CATL 배터리 사용량은 0.2GWh(기가와트시)로 LG에너지솔루션(12.3GWh),
|
168 |
+
삼성SDI(4.3GWh), SK이노베이션(2.1GWh)에 비해 초라한 수준이었다. 하지만 지난해 5.3GWh로 무려 2,457.1%의 성장률을
|
169 |
+
기록했다. 점유율 역시 0.4%에서 6.5%로 껑충 뛰었다. CATL은 또 상상을 초월하는 생산능력을 갖춰 전기차 배터리 시장의 최상위 포식자로
|
170 |
+
군림하겠다는 계획을 세우고 있다. CATL이 현재 국내·외에서 진행 중인 배터리 공장 건설 프로젝트를 종합하면 자체 생산과 합작사를 합쳐 2025년엔
|
171 |
+
486.8GWh, 2030년엔 591.8GWh의 생산능력을 보유하게 된다. 2020년 글로벌 시장 전체 전기차용 배터리 사용량이 142.8GWh인
|
172 |
+
점을 감안하면 어마어마한 규모다. 업계 관계자는 “올해 예정된 글로벌 자동차 회사들의 배터리 공급사 입찰 규모는 약 1.4TWh(테라와트시)로
|
173 |
+
지난해 판매된 전기차 총 배터리 용량의 10배에 달한다”며 “수주전 결과에 따라 배터리 업체들의 향후 수년간 순위표에 지각 변동이 생길 수
|
174 |
+
있다는 뜻”이라고 말했다. 이어 “전기차 시장을 선도하는 유럽까지 C배터리가 침투한 만큼 K배터리는 신흥 시장이자 중국의 진출이 제한되는 미국
|
175 |
+
시장을 선점할 필요가 있다”면서 “LG와 SK가 빠른 시일 내에 합의를 하고 선의의 경쟁을 통해 K배터리의 경쟁력을 키워야 할 때”라고 강조했다.
|
176 |
+
- source_sentence: 지역 예술인을 위한 공모를 시행했던 프로젝트는 어떤 것에 일부분이야?
|
177 |
+
sentences:
|
178 |
+
- 충남 공주시는 제민천과 국고개 일원을 대상으로 지난해 8월부터 추진한 공공미술 프로젝트 사업이 완료됐다고 21일 밝혔다. 문화체육관광부가 주최
|
179 |
+
공주시가 주관한 공공미술 프로젝트는 지역예술인 일자리 제공 및 주민 문화 향유 증진이라는 취지로 전국 228개 지자체 대상으로 추진됐다. 이에
|
180 |
+
시는 지난해 8월 공모를 통해 한국미술협회(공주지부)와 충남공예협동조합 2개팀을 선정 지역작가 37명의 참여를 통해 진행해 '중동교~대통교'사이에
|
181 |
+
조명과 벤치, 포토존 그리고 주민참여로 만들어진 송사리 조형물을 설치해 주민들에게 휴식 공간을 제공했다. 그리고 '국고개 흐르는 효심'은 도조작품,
|
182 |
+
화분조형, 이복이야기 동화책 및 국고개 가이드북 만들기 등 커뮤니티 프로그램 운영 역사.문화.예술 중심지의 특성을 살리는데 중점을 뒀다. 황의정
|
183 |
+
문화체육과장은 "앞으로도 시민들이 언제 어디서나 문화예술을 누리고, 지역예술인에게는 일자리를 제공할 수 있는 다양한 사업을 ��행하겠다"고 말했다.
|
184 |
+
- 배우 신성록이 여권 사진을 공개해 시선을 모았다. 18일 오후 방송된 SBS 예능 프로그램 ‘집사부일체’에는 김종국이 사부로 출연했다. 사부를
|
185 |
+
만나기 전, 출연진은 가고 싶었던 바캉스 장소에 대해 이야기했다. 차은우는 “하와이에 가고 싶다”고 했고, 이승기는 “제주도 여행이 간절하다”고
|
186 |
+
말했다. 양세형은 “나도 제주도”라고 외쳤다. 양세형은 “은우의 여권 사진이 궁금하다”며 호기심을 드러냈다. 차은우의 여권 사진이 공개되자,
|
187 |
+
이승기는 “프로필 사진이냐”며 감탄했다. 양세형은 “모델 같다”고 말했다. 신성록은 “동네 사진관에서 여권 사진을 찍었다. 보정이 심해서 AI
|
188 |
+
같다”며 자신의 사진을 공개했다. 그의 여권 사진을 본 양세형은 “실물이 더 잘생겼다”고 말했다. 한편 ‘집사부일체’는 매주 일요일 오후 6시
|
189 |
+
25분에 방송된다.
|
190 |
+
- 마산의 원도심 성호동의 역사가 예술로 기록되고 되살아난다. 시대를 살아낸 사람들의 애틋한 이야기가 아름다운 소리, 몸짓, 조형, 화첩에 담겨
|
191 |
+
시민을 만난다. 창원시와 창원시문화도시지원센터는 오는 30일 오후 2시 마산합포구 문신길 일대에서 성호동과 그 주변 지역주민들의 삶, 지리적,
|
192 |
+
환경적 문화를 예술에 담은 〈사회참여예술창작지원사업〉 ‘예술로 성호창발(城湖創發)’ 창작 발표회를 갖는다고 밝혔다. 문화특화지역조성사업의 일환으로
|
193 |
+
진행하는 이 사업은 생성과 소멸의 과정을 거쳐 성장해온 도심 속 흩어져 있는 다양한 문화를 예술로 기록하고 후대에 물려주기 위한 취지로 순수예술
|
194 |
+
창작물을 구현하고 예술의 사회적 책임에 관해 고찰해 보는 사업이다. 앞으로 지역 예술인들과 뜻을 모아 소중한 원도심의 문화가 한순간 덧없이
|
195 |
+
사라지는 일이 없도록 매년 확대해 나갈 계획이다. 성호동을 대상으로 올해 처음 시행하는 ‘예술로 성호창발(城湖創發)’ 사업은 지난해 10월
|
196 |
+
지역 예술인들을 대상으로 참가자를 공개 모집한 결과, 사업 취지를 이해하고 창작 능력과 작품의 완성도가 기대되는 4개 단체를 선정하였다. 선정된
|
197 |
+
4개 단체 작가들은 스토리 개발을 위해 성호동 주민들을 만나 세밀한 대화를 나누기도 하고, 장르와 특성에 맞는 창작품을 만들기 위해 성호동
|
198 |
+
구석구석을 누비는 열정을 보였다. 발표회는 1월 30일 오후 2시부터 4시 30분까지 ‘성호동 이바구 투어’라는 이름으로 마산박물관 앞에 모여
|
199 |
+
문신 길을 따라 추산창작공작소 4933을 거쳐 임항선 그린웨이, 그리고 성호동 생활문화센터를 지나 정법사로 이동하면서 펼쳐진다. 〈(사)경남국악관현악단
|
200 |
+
‘휴’〉가 ‘추산창작공작소 4933’에서 동네 이야기를 판소리로 엮어 국악 관현악과 경서도 소리를 통해 성호동의 옛이야기를 펼치고, 는 ‘성호동의
|
201 |
+
역사와 추억을 담다’란 주제로 도시가 발달하면서 퇴색되어가는 성호동 동네잔치의 상징적 의미를 담은 조형물을 설치했다. 〈신미란 작가〉는 ‘성호동
|
202 |
+
생활문화센터 2층 전시장’에서 성호동 사람과 삶의 이야기(話)와 그림(畵)을 표현한 ‘성호화첩(成湖話畵)’을 발표하며, 〈박은혜 춤패〉는 ‘일란
|
203 |
+
이필이의 춤을 찾아가는 소소한 춤 여행’이란 주제로 이필이 선생의 춤을 추며 다큐멘터리 시사회를 가지는 것으로 전체 일정을 마친다. 공식 행사
|
204 |
+
외의 진행은 성호동 토박이 김경년 창원시도시재생지원센터 해설사가 맡아 행사장을 이동하는 중간중간 맛깔나는 이바구로 성호동의 역사를 들려준다.
|
205 |
+
심재욱 창원시 문화체육관광국장은 “도시는 사람의 역사를 품은 곳으로 이제 사람이 도시를 품어야 문화예술로 지속 성장의 가능성을 보여줄 수 있다”라며
|
206 |
+
문화의 힘을 강조했다. 한편 행사 참가는 사회적 거리두기를 위해 참석 인원을 20명으로 제한하여 운영한다.
|
207 |
+
pipeline_tag: sentence-similarity
|
208 |
+
library_name: sentence-transformers
|
209 |
+
---
|
210 |
+
|
211 |
+
# SentenceTransformer based on BAAI/bge-m3
|
212 |
+
|
213 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
214 |
+
|
215 |
+
## Model Details
|
216 |
+
|
217 |
+
### Model Description
|
218 |
+
- **Model Type:** Sentence Transformer
|
219 |
+
- **Base model:** [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3) <!-- at revision 5617a9f61b028005a4858fdac845db406aefb181 -->
|
220 |
+
- **Maximum Sequence Length:** 1024 tokens
|
221 |
+
- **Output Dimensionality:** 1024 tokens
|
222 |
+
- **Similarity Function:** Cosine Similarity
|
223 |
+
<!-- - **Training Dataset:** Unknown -->
|
224 |
+
<!-- - **Language:** Unknown -->
|
225 |
+
<!-- - **License:** Unknown -->
|
226 |
+
|
227 |
+
### Model Sources
|
228 |
+
|
229 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
230 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
231 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
232 |
+
|
233 |
+
### Full Model Architecture
|
234 |
+
|
235 |
+
```
|
236 |
+
SentenceTransformer(
|
237 |
+
(0): Transformer({'max_seq_length': 1024, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
|
238 |
+
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
239 |
+
(2): Normalize()
|
240 |
+
)
|
241 |
+
```
|
242 |
+
|
243 |
+
## Usage
|
244 |
+
|
245 |
+
### Direct Usage (Sentence Transformers)
|
246 |
+
|
247 |
+
First install the Sentence Transformers library:
|
248 |
+
|
249 |
+
```bash
|
250 |
+
pip install -U sentence-transformers
|
251 |
+
```
|
252 |
+
|
253 |
+
Then you can load this model and run inference.
|
254 |
+
```python
|
255 |
+
from sentence_transformers import SentenceTransformer
|
256 |
+
|
257 |
+
# Download from the 🤗 Hub
|
258 |
+
model = SentenceTransformer("seongil-dn/bge-m3-kor-retrieval-451949-bs64-news-50")
|
259 |
+
# Run inference
|
260 |
+
sentences = [
|
261 |
+
'지역 예술인을 위한 공모를 시행했던 프로젝트는 어떤 것에 일부분이야?',
|
262 |
+
'마산의 원도심 성호동의 역사가 예술로 기록되고 되살아난다. 시대를 살아낸 사람들의 애틋한 이야기가 아름다운 소리, 몸짓, 조형, 화첩에 담겨 시민을 만난다. 창원시와 창원시문화도시지원센터는 오는 30일 오후 2시 마산합포구 문신길 일대에서 성호동과 그 주변 지역주민들의 삶, 지리적, 환경적 문화를 예술에 담은 〈사회참여예술창작지원사업〉 ‘예술로 성호창발(城湖創發)’ 창작 발표회를 갖는다고 밝혔다. 문화특화지역조성사업의 일환으로 진행하는 이 사업은 생성과 소멸의 과정을 거쳐 성장해온 도심 속 흩어져 있는 다양한 문화를 예술로 기록하고 후대에 물려주기 위한 취지로 순수예술 창작물을 구현하고 예술의 사회적 책임에 관해 고찰해 보는 사업이다. 앞으로 지역 예술인들과 뜻을 모아 소중한 원도심의 문화가 한순간 덧없이 사라지는 일이 없도록 매년 확대해 나갈 계획이다. 성호동을 대상으로 올해 처음 시행하는 ‘예술로 성호창발(城湖創發)’ 사업은 지난해 10월 지역 예술인들을 대상으로 참가자를 공개 모집한 결과, 사업 취지를 이해하고 창작 능력과 작품의 완성도가 기대되는 4개 단체를 선정하였다. 선정된 4개 단체 작가들은 스토리 개발을 위해 성호동 주민들을 만나 세밀한 대화를 나누기도 하고, 장르와 특성에 맞는 창작품을 만들기 위해 성호동 구석구석을 누비는 열정을 보였다. 발표회는 1월 30일 오후 2시부터 4시 30분까지 ‘성호동 이바구 투어’라는 이름으로 마산박물관 앞에 모여 문신 길을 따라 추산창작공작소 4933을 거쳐 임항선 그린웨이, 그리고 성호동 생활문화센터를 지나 정법사로 이동하면서 펼쳐진다. 〈(사)경남국악관현악단 ‘휴’〉가 ‘추산창작공작소 4933’에서 동네 이야기를 판소리로 엮어 국악 관현악과 경서도 소리를 통해 성호동의 옛이야기를 펼치고, 는 ‘성호동의 역사와 추억을 담다’란 주제로 도시가 발달하면서 퇴색되어가는 성호동 동네잔치의 상징적 의미를 담은 조형물을 설치했다. 〈신미란 작가〉는 ‘성호동 생활문화센터 2층 전시장’에서 성호동 사람과 삶의 이야기(話)와 그림(畵)을 표현한 ‘성호화첩(成湖話畵)’을 발표하며, 〈박은혜 춤패〉는 ‘일란 이필이의 춤을 찾아가는 소소한 춤 여행’이란 주제로 이필이 선생의 춤을 추며 다큐멘터리 시사회를 가지는 것으로 전체 일정을 마친다. 공식 행사 외의 진행은 성호동 토박이 김경년 창원시도시재생지원센터 해설사가 맡아 행사장을 이동하는 중간중간 맛깔나는 이바구로 성호동의 역사를 들려준다. 심재욱 창원시 문화체육관광국장은 “도시는 사람의 역사를 품은 곳으로 이제 사람이 도시를 품어야 문화예술로 지속 성장의 가능성을 보여줄 수 있다”라며 문화의 힘을 강조했다. 한편 행사 참가는 사회적 거리두기를 위해 참석 인원을 20명으로 제한하여 운영한다.',
|
263 |
+
'충남 공주시는 제민천과 국고개 일원을 대상으로 지난해 8월부터 추진한 공공미술 프로젝트 사업이 완료됐다고 21일 밝혔다. 문화체육관광부가 주최 공주시가 주관한 공공미술 프로젝트는 지역예술인 일자리 제공 및 주민 문화 향유 증진이라는 취지로 전국 228개 지자체 대상으로 추진됐다. 이에 시는 지난해 8월 공모를 통해 한국미술협회(공주지부)와 충남공예협동조합 2개팀을 선정 지역작가 37명의 참여를 통해 진행해 \'중동교~대통교\'사이에 조명과 벤치, 포토존 그리고 주민참여로 만들어진 송사리 조형물을 설치해 주민들에게 휴식 공간을 제공했다. 그리고 \'국고개 흐르는 효심\'은 도조작품, 화분조형, 이복이야기 동화책 및 국고개 가이드북 만들기 등 커뮤니티 프로그램 운영 역사.문화.예술 중심지의 특성을 살리는데 중점을 뒀다. 황의정 문화체육과장은 "앞으로도 시민들이 언제 어디서나 문화예술을 누리고, 지역예술인에게는 일자리를 제공할 수 있는 다양한 사업을 진행하겠다"고 말했다.',
|
264 |
+
]
|
265 |
+
embeddings = model.encode(sentences)
|
266 |
+
print(embeddings.shape)
|
267 |
+
# [3, 1024]
|
268 |
+
|
269 |
+
# Get the similarity scores for the embeddings
|
270 |
+
similarities = model.similarity(embeddings, embeddings)
|
271 |
+
print(similarities.shape)
|
272 |
+
# [3, 3]
|
273 |
+
```
|
274 |
+
|
275 |
+
<!--
|
276 |
+
### Direct Usage (Transformers)
|
277 |
+
|
278 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
279 |
+
|
280 |
+
</details>
|
281 |
+
-->
|
282 |
+
|
283 |
+
<!--
|
284 |
+
### Downstream Usage (Sentence Transformers)
|
285 |
+
|
286 |
+
You can finetune this model on your own dataset.
|
287 |
+
|
288 |
+
<details><summary>Click to expand</summary>
|
289 |
+
|
290 |
+
</details>
|
291 |
+
-->
|
292 |
+
|
293 |
+
<!--
|
294 |
+
### Out-of-Scope Use
|
295 |
+
|
296 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
297 |
+
-->
|
298 |
+
|
299 |
+
<!--
|
300 |
+
## Bias, Risks and Limitations
|
301 |
+
|
302 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
303 |
+
-->
|
304 |
+
|
305 |
+
<!--
|
306 |
+
### Recommendations
|
307 |
+
|
308 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
309 |
+
-->
|
310 |
+
|
311 |
+
## Training Details
|
312 |
+
|
313 |
+
### Training Hyperparameters
|
314 |
+
#### Non-Default Hyperparameters
|
315 |
+
|
316 |
+
- `per_device_train_batch_size`: 64
|
317 |
+
- `learning_rate`: 3e-05
|
318 |
+
- `num_train_epochs`: 1
|
319 |
+
- `max_steps`: 50
|
320 |
+
- `warmup_ratio`: 0.05
|
321 |
+
- `fp16`: True
|
322 |
+
- `batch_sampler`: no_duplicates
|
323 |
+
|
324 |
+
#### All Hyperparameters
|
325 |
+
<details><summary>Click to expand</summary>
|
326 |
+
|
327 |
+
- `overwrite_output_dir`: False
|
328 |
+
- `do_predict`: False
|
329 |
+
- `eval_strategy`: no
|
330 |
+
- `prediction_loss_only`: True
|
331 |
+
- `per_device_train_batch_size`: 64
|
332 |
+
- `per_device_eval_batch_size`: 8
|
333 |
+
- `per_gpu_train_batch_size`: None
|
334 |
+
- `per_gpu_eval_batch_size`: None
|
335 |
+
- `gradient_accumulation_steps`: 1
|
336 |
+
- `eval_accumulation_steps`: None
|
337 |
+
- `torch_empty_cache_steps`: None
|
338 |
+
- `learning_rate`: 3e-05
|
339 |
+
- `weight_decay`: 0.0
|
340 |
+
- `adam_beta1`: 0.9
|
341 |
+
- `adam_beta2`: 0.999
|
342 |
+
- `adam_epsilon`: 1e-08
|
343 |
+
- `max_grad_norm`: 1.0
|
344 |
+
- `num_train_epochs`: 1
|
345 |
+
- `max_steps`: 50
|
346 |
+
- `lr_scheduler_type`: linear
|
347 |
+
- `lr_scheduler_kwargs`: {}
|
348 |
+
- `warmup_ratio`: 0.05
|
349 |
+
- `warmup_steps`: 0
|
350 |
+
- `log_level`: passive
|
351 |
+
- `log_level_replica`: warning
|
352 |
+
- `log_on_each_node`: True
|
353 |
+
- `logging_nan_inf_filter`: True
|
354 |
+
- `save_safetensors`: True
|
355 |
+
- `save_on_each_node`: False
|
356 |
+
- `save_only_model`: False
|
357 |
+
- `restore_callback_states_from_checkpoint`: False
|
358 |
+
- `no_cuda`: False
|
359 |
+
- `use_cpu`: False
|
360 |
+
- `use_mps_device`: False
|
361 |
+
- `seed`: 42
|
362 |
+
- `data_seed`: None
|
363 |
+
- `jit_mode_eval`: False
|
364 |
+
- `use_ipex`: False
|
365 |
+
- `bf16`: False
|
366 |
+
- `fp16`: True
|
367 |
+
- `fp16_opt_level`: O1
|
368 |
+
- `half_precision_backend`: auto
|
369 |
+
- `bf16_full_eval`: False
|
370 |
+
- `fp16_full_eval`: False
|
371 |
+
- `tf32`: None
|
372 |
+
- `local_rank`: 0
|
373 |
+
- `ddp_backend`: None
|
374 |
+
- `tpu_num_cores`: None
|
375 |
+
- `tpu_metrics_debug`: False
|
376 |
+
- `debug`: []
|
377 |
+
- `dataloader_drop_last`: True
|
378 |
+
- `dataloader_num_workers`: 0
|
379 |
+
- `dataloader_prefetch_factor`: None
|
380 |
+
- `past_index`: -1
|
381 |
+
- `disable_tqdm`: False
|
382 |
+
- `remove_unused_columns`: True
|
383 |
+
- `label_names`: None
|
384 |
+
- `load_best_model_at_end`: False
|
385 |
+
- `ignore_data_skip`: False
|
386 |
+
- `fsdp`: []
|
387 |
+
- `fsdp_min_num_params`: 0
|
388 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
389 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
390 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
391 |
+
- `deepspeed`: None
|
392 |
+
- `label_smoothing_factor`: 0.0
|
393 |
+
- `optim`: adamw_torch
|
394 |
+
- `optim_args`: None
|
395 |
+
- `adafactor`: False
|
396 |
+
- `group_by_length`: False
|
397 |
+
- `length_column_name`: length
|
398 |
+
- `ddp_find_unused_parameters`: None
|
399 |
+
- `ddp_bucket_cap_mb`: None
|
400 |
+
- `ddp_broadcast_buffers`: False
|
401 |
+
- `dataloader_pin_memory`: True
|
402 |
+
- `dataloader_persistent_workers`: False
|
403 |
+
- `skip_memory_metrics`: True
|
404 |
+
- `use_legacy_prediction_loop`: False
|
405 |
+
- `push_to_hub`: False
|
406 |
+
- `resume_from_checkpoint`: None
|
407 |
+
- `hub_model_id`: None
|
408 |
+
- `hub_strategy`: every_save
|
409 |
+
- `hub_private_repo`: False
|
410 |
+
- `hub_always_push`: False
|
411 |
+
- `gradient_checkpointing`: False
|
412 |
+
- `gradient_checkpointing_kwargs`: None
|
413 |
+
- `include_inputs_for_metrics`: False
|
414 |
+
- `eval_do_concat_batches`: True
|
415 |
+
- `fp16_backend`: auto
|
416 |
+
- `push_to_hub_model_id`: None
|
417 |
+
- `push_to_hub_organization`: None
|
418 |
+
- `mp_parameters`:
|
419 |
+
- `auto_find_batch_size`: False
|
420 |
+
- `full_determinism`: False
|
421 |
+
- `torchdynamo`: None
|
422 |
+
- `ray_scope`: last
|
423 |
+
- `ddp_timeout`: 1800
|
424 |
+
- `torch_compile`: False
|
425 |
+
- `torch_compile_backend`: None
|
426 |
+
- `torch_compile_mode`: None
|
427 |
+
- `dispatch_batches`: None
|
428 |
+
- `split_batches`: None
|
429 |
+
- `include_tokens_per_second`: False
|
430 |
+
- `include_num_input_tokens_seen`: False
|
431 |
+
- `neftune_noise_alpha`: None
|
432 |
+
- `optim_target_modules`: None
|
433 |
+
- `batch_eval_metrics`: False
|
434 |
+
- `eval_on_start`: False
|
435 |
+
- `eval_use_gather_object`: False
|
436 |
+
- `batch_sampler`: no_duplicates
|
437 |
+
- `multi_dataset_batch_sampler`: proportional
|
438 |
+
|
439 |
+
</details>
|
440 |
+
|
441 |
+
### Training Logs
|
442 |
+
| Epoch | Step | Training Loss |
|
443 |
+
|:------:|:----:|:-------------:|
|
444 |
+
| 0.0027 | 1 | 0.9465 |
|
445 |
+
| 0.0054 | 2 | 0.965 |
|
446 |
+
| 0.0082 | 3 | 0.7998 |
|
447 |
+
| 0.0109 | 4 | 0.7063 |
|
448 |
+
| 0.0136 | 5 | 0.6976 |
|
449 |
+
| 0.0163 | 6 | 0.6378 |
|
450 |
+
| 0.0191 | 7 | 0.6231 |
|
451 |
+
| 0.0218 | 8 | 0.6338 |
|
452 |
+
| 0.0245 | 9 | 0.4491 |
|
453 |
+
| 0.0272 | 10 | 0.5405 |
|
454 |
+
| 0.0300 | 11 | 0.5603 |
|
455 |
+
| 0.0327 | 12 | 0.483 |
|
456 |
+
| 0.0354 | 13 | 0.458 |
|
457 |
+
| 0.0381 | 14 | 0.4574 |
|
458 |
+
| 0.0409 | 15 | 0.4182 |
|
459 |
+
| 0.0436 | 16 | 0.483 |
|
460 |
+
| 0.0463 | 17 | 0.5472 |
|
461 |
+
| 0.0490 | 18 | 0.5208 |
|
462 |
+
| 0.0518 | 19 | 0.4882 |
|
463 |
+
| 0.0545 | 20 | 0.618 |
|
464 |
+
| 0.0572 | 21 | 0.4938 |
|
465 |
+
| 0.0599 | 22 | 0.4108 |
|
466 |
+
| 0.0627 | 23 | 0.4958 |
|
467 |
+
| 0.0654 | 24 | 0.4569 |
|
468 |
+
| 0.0681 | 25 | 0.405 |
|
469 |
+
| 0.0708 | 26 | 0.4408 |
|
470 |
+
| 0.0736 | 27 | 0.4485 |
|
471 |
+
| 0.0763 | 28 | 0.4512 |
|
472 |
+
| 0.0790 | 29 | 0.5001 |
|
473 |
+
| 0.0817 | 30 | 0.4848 |
|
474 |
+
| 0.0845 | 31 | 0.4541 |
|
475 |
+
| 0.0872 | 32 | 0.3759 |
|
476 |
+
| 0.0899 | 33 | 0.3552 |
|
477 |
+
| 0.0926 | 34 | 0.3471 |
|
478 |
+
| 0.0954 | 35 | 0.3768 |
|
479 |
+
| 0.0981 | 36 | 0.3644 |
|
480 |
+
| 0.1008 | 37 | 0.4479 |
|
481 |
+
| 0.1035 | 38 | 0.4004 |
|
482 |
+
| 0.1063 | 39 | 0.4368 |
|
483 |
+
| 0.1090 | 40 | 0.4611 |
|
484 |
+
| 0.1117 | 41 | 0.3843 |
|
485 |
+
| 0.1144 | 42 | 0.4098 |
|
486 |
+
| 0.1172 | 43 | 0.3923 |
|
487 |
+
| 0.1199 | 44 | 0.3365 |
|
488 |
+
| 0.1226 | 45 | 0.3848 |
|
489 |
+
| 0.1253 | 46 | 0.4285 |
|
490 |
+
| 0.1281 | 47 | 0.4179 |
|
491 |
+
| 0.1308 | 48 | 0.3597 |
|
492 |
+
| 0.1335 | 49 | 0.3672 |
|
493 |
+
| 0.1362 | 50 | 0.3593 |
|
494 |
+
|
495 |
+
|
496 |
+
### Framework Versions
|
497 |
+
- Python: 3.10.12
|
498 |
+
- Sentence Transformers: 3.2.1
|
499 |
+
- Transformers: 4.44.2
|
500 |
+
- PyTorch: 2.3.1+cu121
|
501 |
+
- Accelerate: 1.1.1
|
502 |
+
- Datasets: 2.21.0
|
503 |
+
- Tokenizers: 0.19.1
|
504 |
+
|
505 |
+
## Citation
|
506 |
+
|
507 |
+
### BibTeX
|
508 |
+
|
509 |
+
#### Sentence Transformers
|
510 |
+
```bibtex
|
511 |
+
@inproceedings{reimers-2019-sentence-bert,
|
512 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
513 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
514 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
515 |
+
month = "11",
|
516 |
+
year = "2019",
|
517 |
+
publisher = "Association for Computational Linguistics",
|
518 |
+
url = "https://arxiv.org/abs/1908.10084",
|
519 |
+
}
|
520 |
+
```
|
521 |
+
|
522 |
+
#### CachedMultipleNegativesRankingLoss
|
523 |
+
```bibtex
|
524 |
+
@misc{gao2021scaling,
|
525 |
+
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
|
526 |
+
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
|
527 |
+
year={2021},
|
528 |
+
eprint={2101.06983},
|
529 |
+
archivePrefix={arXiv},
|
530 |
+
primaryClass={cs.LG}
|
531 |
+
}
|
532 |
+
```
|
533 |
+
|
534 |
+
<!--
|
535 |
+
## Glossary
|
536 |
+
|
537 |
+
*Clearly define terms in order to be accessible across audiences.*
|
538 |
+
-->
|
539 |
+
|
540 |
+
<!--
|
541 |
+
## Model Card Authors
|
542 |
+
|
543 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
544 |
+
-->
|
545 |
+
|
546 |
+
<!--
|
547 |
+
## Model Card Contact
|
548 |
+
|
549 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
550 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,28 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "bge-m3-kor-retrieval-451949-bs64-news/checkpoint-50",
|
3 |
+
"architectures": [
|
4 |
+
"XLMRobertaModel"
|
5 |
+
],
|
6 |
+
"attention_probs_dropout_prob": 0.1,
|
7 |
+
"bos_token_id": 0,
|
8 |
+
"classifier_dropout": null,
|
9 |
+
"eos_token_id": 2,
|
10 |
+
"hidden_act": "gelu",
|
11 |
+
"hidden_dropout_prob": 0.1,
|
12 |
+
"hidden_size": 1024,
|
13 |
+
"initializer_range": 0.02,
|
14 |
+
"intermediate_size": 4096,
|
15 |
+
"layer_norm_eps": 1e-05,
|
16 |
+
"max_position_embeddings": 8194,
|
17 |
+
"model_type": "xlm-roberta",
|
18 |
+
"num_attention_heads": 16,
|
19 |
+
"num_hidden_layers": 24,
|
20 |
+
"output_past": true,
|
21 |
+
"pad_token_id": 1,
|
22 |
+
"position_embedding_type": "absolute",
|
23 |
+
"torch_dtype": "float32",
|
24 |
+
"transformers_version": "4.44.2",
|
25 |
+
"type_vocab_size": 1,
|
26 |
+
"use_cache": true,
|
27 |
+
"vocab_size": 250002
|
28 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.2.1",
|
4 |
+
"transformers": "4.44.2",
|
5 |
+
"pytorch": "2.3.1+cu121"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": null
|
10 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:18d42a983efe7ebbe9f8377c809a65af3dd7ae24fad53e15539ba22306fa698e
|
3 |
+
size 2271064456
|
modules.json
ADDED
@@ -0,0 +1,20 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
},
|
14 |
+
{
|
15 |
+
"idx": 2,
|
16 |
+
"name": "2",
|
17 |
+
"path": "2_Normalize",
|
18 |
+
"type": "sentence_transformers.models.Normalize"
|
19 |
+
}
|
20 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 1024,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "<s>",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "<s>",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "</s>",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "<mask>",
|
25 |
+
"lstrip": true,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "<pad>",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "</s>",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": false,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "<unk>",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": false,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer.json
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:6e3b8957de04e3a4ed42b1a11381556f9adad8d0d502b9dd071c75f626b28f40
|
3 |
+
size 17083053
|
tokenizer_config.json
ADDED
@@ -0,0 +1,62 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "<s>",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "<pad>",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "</s>",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "<unk>",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"250001": {
|
36 |
+
"content": "<mask>",
|
37 |
+
"lstrip": true,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"bos_token": "<s>",
|
45 |
+
"clean_up_tokenization_spaces": true,
|
46 |
+
"cls_token": "<s>",
|
47 |
+
"eos_token": "</s>",
|
48 |
+
"mask_token": "<mask>",
|
49 |
+
"max_length": 1024,
|
50 |
+
"model_max_length": 1024,
|
51 |
+
"pad_to_multiple_of": null,
|
52 |
+
"pad_token": "<pad>",
|
53 |
+
"pad_token_type_id": 0,
|
54 |
+
"padding_side": "right",
|
55 |
+
"sep_token": "</s>",
|
56 |
+
"sp_model_kwargs": {},
|
57 |
+
"stride": 0,
|
58 |
+
"tokenizer_class": "XLMRobertaTokenizer",
|
59 |
+
"truncation_side": "right",
|
60 |
+
"truncation_strategy": "longest_first",
|
61 |
+
"unk_token": "<unk>"
|
62 |
+
}
|