devngho commited on
Commit
42497fb
·
verified ·
1 Parent(s): fd1f536

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +177 -27
README.md CHANGED
@@ -12,13 +12,23 @@ NFKD 정규화를 하면 한국어 외 다른 언어 토크나이징에 영향
12
 
13
  Text: `모든 인간은 태어날 때부터 자유로우며 그 존엄과 권리에 있어 동등하다. 인간은 천부적으로 이성과 양심을 부여받았으며 서로 형제애의 정신으로 행동하여야 한다.`
14
 
15
- phi4: 85 (0.00% more effective than phi-4) (�|�|든| 인|간|은| �|�|어|�|�| 때|부|터| 자|�|�|로|우|�|�| 그| �|��|�|�|과| �|�|�|리|에| 있|어| �|�|�|�|하|다|.| 인|간|은| �|�|부|적|으로| 이|성|과| �|�|�|�|을| 부|여|�|�|�|�|으|�|�| 서|로| �|�|제|�|�|의| 정|신|으로| �|��|동|하여|야| 한|다|.)
 
16
 
17
- phi4-mini-jamo: 39 (117.95% more effective than phi-4) (모든| 인간은| 태어나|ᆯ 때|부터| 자유|로우|며| 그| 존|엄|과| 권리|에 있어| 동|등|하다|.| 인간은| 천|부|적으로| 이|성과| 양|심을| 부여|받아|ᆻ으며| 서로| 형제|애|의 정|신|으로| 행동|하여|야 한다|.)
 
18
 
19
- phi4-jamo: 39 (117.95% more effective than phi-4) (모든| 인간은| 태어나|ᆯ 때|부터| 자유|로우|며| 그| 존|엄|과| 권리|에 있어| 동|등|하다|.| 인간은| 천|부|적으로| 이|성과| 양|심을| 부여|받아|ᆻ으며| 서로| 형제|애|의 정|신|으로| 행동|하여|야 한다|.)
 
20
 
21
- jamo-exp1: 39 (117.95% more effective than phi-4) (모든|인간은|태어나|ᆯ 때|부터|자유|로우|며|그|존|엄|과|권리|에 있어|동|등|하다|.|인간은|천|부|적으로|이|성과|양|심을|부여|받아|ᆻ으며|서로|형제|애|의 정|신|으로|행동|하여|야 한다|.)
 
 
 
 
 
 
 
22
 
23
  Text:
24
  ```
@@ -36,7 +46,8 @@ PyTorch, TensorFlow, JAX를 위한 최첨단 머신러닝
36
  커뮤니티에 참여하시려면 Hub, 포럼, 디스코드를 방문해주세요!
37
  ```
38
  <details> <summary>토큰 단위 결과</summary>
39
- phi4: 540 (0.00% more effective than phi-4) (Py|T|orch|,| TensorFlow|,| J|AX|를| 위|한| 최|�|�|�|�| �|�|�|신|러|�|�|
 
40
 
41
  |�|�|�| Transformers|는| 사|전|�|�|습|된| 최|�|�|�|�| 모|�|�|들|을| �|�|�|게| 다|운|로|드|하|고| �|�|�|�|�|시|�|��| 수| 있는| API|와| �|�|구|를| 제|공|합니다|.| 사|전|�|�|습|된| 모|�|�|을| �|�|�|면| �|�|�|�|�|�|�| 비|용|과| �|�|소| 배|출|�|�|이| �|�|고|,| 모|�|�|을| 처|음|부|터| �|�|�|�|�|시|�|��|는| �|��| 필|요|한| 시|간|과| 리|소|스|를| �|�|�|�|할| 수| 있|습니다|.| �|�|�|�|�| 모|�|�|들|은| 다|�|�|한| �|�|야|의| �|�|스|크|를| 지|원|합니다|.
42
 
@@ -47,35 +58,52 @@ phi4: 540 (0.00% more effective than phi-4) (Py|T|orch|,| TensorFlow|,| J|AX|를
47
 
48
  |�|�|�| Transformers|는| Py|T|orch|,| TensorFlow|와| J|AX| �|�|의| 상|호|운|용|성|을| 지|원|합니다|.| �|�|�|�|하|게| 모|�|�|의| �|�| �|�|�|�|�|�다| 다|른| 프|�|�|임|�|�|크|를| 사용|할| 수|도| 있|습니다|.| 예|를| �|�|어| 코드| |3|�|�|만| �|�|�|서| 모|�|�|을| �|�|�|�|�|시|�|��| 다|음|,| 다|른| 프|�|�|임|�|�|크| 상|에서| 추|�|�|할| 수| 있|습니다|.| 모|�|�|을| �|�|�|�| �|�|경|에| 배|�|�|�|하기| 위|해| ON|NX|나| Torch|Script| �|�|식|으로| 내|보|�|�| 수|도| 있|습니다|.
49
 
50
- |�|�|�|�|�|�|니|�|�|�|에| �|�|여|하|시|�|�|면| Hub|,| 포|�|�|,| �|�|스|�|��드|를| 방|문|해|주세요|!)
51
-
52
- phi4-mini-jamo: 305 (77.05% more effective than phi-4) (Py|T|orch|,| |Tensor|Flow|,| |J|AX|를| 위한| 최|첨|단| 머|신|러|닝|
53
 
54
- |�|�|�| |Transform|ers|는| 사전|학습|된| 최|첨|단| 모델|들을| 쉽게| 다|운|로드|하고| 훈련|시키|ᆯ 수 있는| |API|와| 도|구를| 제공합니다|.| 사전|학습|된| 모델을| 쓰|면| ᄏ|ᅥᆷ퓨|팅| 비용|과| 탄소| 배출|량이| 줄|고|,| 모델을| 처음|부터| 훈련|시키는 데| 필요한| 시간과| 리|소|스를| 절|약하|ᆯ 수 있습니다|.| 저|희| 모델|들은| 다양한| 분야|의| 태|스크|를| 지원|합니다|.
 
 
 
55
 
56
  |�|�|�| 자연|어| 처리|:| 텍|스트| 분류|,| 개|체|명| 인식|,| 질의|응답|,| 언어| 모데|ᆯ링|,| 요약|,| 버��|역|,| 객|관|식| 질의|응답|,| 텍|스트| 생성|
57
  |�|�|�|️| 컴퓨터| 비|전|:| 이미지| 분류|,| 객|체| 탐|지|,| 객|체| 분|할|
58
  |�|�|�|️| 오|디오|:| 자동|음성|인식|,| 오|디오| 분류|
59
  |�|�|�| 멀티|모|달|:| 표| 질의|응답|,| 광학| 문자| 인식| |(|OCR|),| 스|캐|ᆫ|한| 문|서|에서| 정보| 추출|,| 비디오| 분류|,| 시각| 질의|응답|
 
 
60
 
61
- |�|�|�| |Transform|ers|는| |Py|T|orch|,| |Tensor|Flow|와| |J|AX| 간|의 상호|운용|성을| 지원|합니다|.| 유연|하게| 모데|ᆯ의| 각| 단계|마다| 다른| 프레임|워크|를 사용|할 수도| 있습니다|.| 예를 들어| 코드| |3|줄|만| 써|서| 모델을| 훈련|시킨| 다음|,| 다른| 프레임|워크| 상에서| 추|론|할 수 있|습니다|.| 모델을| 운영| 환경|에| 배|포|하기 위해| |ON|NX|나| |T|orch|Script| 형|식으로| 내|보내|ᆯ 수도| 있습니다|.
62
 
63
- |커뮤니티|에 참여|하시|려면| |Hub|,| 포|럼|,| 디|스코|드를| 방문|해주|세요|!)
 
64
 
65
- phi4-jamo: 305 (77.05% more effective than phi-4) (Py|T|orch|,| |Tensor|Flow|,| |J|AX|를| 위한| 최|첨|단| 머|신|러|닝|
66
 
67
- |�|�|�| |Transform|ers|는| 사전|학습|된| 최|첨|단| 모델|들을| 쉽게| 다|운|로드|하고| 훈련|시키|ᆯ 수 있는| |API|와| 도|구를| 제공합니다|.| 사전|학습|된| 모델을| 쓰|면| ᄏ|ᅥᆷ퓨|팅| 비용|과| 탄소| 배출|량이| 줄|고|,| 모델을| 처음|부터| 훈련|시키는 데| 필요한| 시간과| 리|소|스를| 절|약하|ᆯ 수 있습니다|.| 저|희| 모델|들은| 다양한| 분야|의| 태|스크|를| 지원|합니다|.
 
 
 
68
 
69
- |�|�|�| 자연|어| 처리|:| 텍|스트| 분류|,| 개|체|명| 인식|,| 질의|응답|,| 언어| 모데|ᆯ링|,| 요약|,| 번|역|,| 객|관|식| 질의|응답|,| 텍|스트| 생성|
 
 
 
 
 
 
 
 
 
70
  |�|�|�|️| 컴퓨터| 비|전|:| 이미지| 분류|,| 객|체| 탐|지|,| 객|체| 분|할|
71
  |�|�|�|️| 오|디오|:| 자동|음성|인식|,| 오|디오| 분류|
72
- |�|�|�| 멀티|모|달|:| 표| 질의|응답|,| 광학| 문자| 인식| |(|OCR|),| 스|캐|ᆫ|한| 문|서|에서| 정보| 추출|,| 비디오| 분류|,| 시각| 질의|응답|
73
-
74
- |�|�|�| |Transform|ers|는| |Py|T|orch|,| |Tensor|Flow|와| |J|AX| 간|의 상호|운용|성을| 지원|합니다|.| 유연|하게| 모데|ᆯ의| 각| 단계|마다| 다른| 프레임|워크|를 사용|할 수도| 있습니다|.| 예를 들어| 코드| |3|줄|만| 써|서| 모델을| 훈련|시킨| 다음|,| 다른| 프레임|워크| 상에서| 추|론|할 수 있|습니다|.| 모델을| 운영| 환경|에| 배|포|하기 위해| |ON|NX|나| |T|orch|Script| 형|식으로| 내|보내|ᆯ 수도| 있습니다|.
75
 
76
- |커뮤니티|에 참여|하시|려면| |Hub|,| 포|럼|,| 디|스코|드를| 방문|해주|세요|!)
77
 
78
- jamo-exp1: 345 (56.52% more effective than phi-4) (P|y|T|or|ch|,|T|en|s|or|F|lo|w|,|J|A|X|를 위한|최|첨|단|머|신|러|닝|
 
79
  |
80
  |�|�|�|�|T|r|an|s|for|m|ers|는 사|전|학습|된|최|첨|단|모델|들을|쉽게|다|운|로드|하고|훈련|시키|ᆯ 수 있는|AP|I|와|도|구를|제공합니다|.|사전|학습|된|모델을|쓰|면|ᄏ|ᅥᆷ퓨|팅|비용|과|탄소|배출|량이|줄|고|,|모델을|처음|부터|훈련|시키는 데|필요한|시간과|리|소|스를|절|약하|ᆯ 수 있습니다|.|저|희|모델|들은|다양한|분야|의|태|스크|를|지원|합니다|.|
81
  |
@@ -86,24 +114,146 @@ jamo-exp1: 345 (56.52% more effective than phi-4) (P|y|T|or|ch|,|T|en|s|or|F|lo|
86
  |
87
  |�|�|�|�|T|r|an|s|for|m|ers|는|P|y|T|or|ch|,|T|en|s|or|F|lo|w|와|J|A|X|간|의 상호|운용|성을|지원|합니다|.|유연|하게|모데|ᆯ의|각|단계|마다|다른|프레임|워크|를 사용|할 수도|있습니다|.|예를 들어|코드||3|줄|만|써|서|모델을|훈련|시킨|다음|,|다른|프레임|워크|상에서|추|론|할 수 있|습니다|.|모델을|운영|환경|에|배|포|하기 위해|ON|N|X|나|T|or|ch|S|c|ri|p|t|형|식으로|내|보내|ᆯ 수도|있습니다|.|
88
  |
89
- |커뮤니티|에 참여|하시|려면|H|ub|,|포|럼|,|디|스코|드를|방문|해주|세요|!)</details>
 
 
 
 
 
 
 
 
 
 
 
 
 
 
90
 
91
  phi4: 540 (0.00% more effective than phi-4)
92
 
93
- phi4-mini-jamo: 305 (77.05% more effective than phi-4)
94
 
95
- phi4-jamo: 305 (77.05% more effective than phi-4)
 
 
96
 
97
  jamo-exp1: 345 (56.52% more effective than phi-4)
98
 
 
 
99
  **다국어 예시**: 원래 토크나이저와 동일
100
 
101
- Text: Zoë
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
102
 
103
- phi4: 3 (0.00% more effective than phi-4) (Z|o|ë)
104
 
105
- phi4-mini-jamo: 3 (0.00% more effective than phi-4) (Z|o|ë)
106
 
107
- phi4-jamo: 3 (0.00% more effective than phi-4) (Z|o|ë)
108
 
109
- jamo-exp1: 5 (-40.00% more effective than phi-4) (Z|o|e|�|�)
 
12
 
13
  Text: `모든 인간은 태어날 때부터 자유로우며 그 존엄과 권리에 있어 동등하다. 인간은 천부적으로 이성과 양심을 부여받았으며 서로 형제애의 정신으로 행동하여야 한다.`
14
 
15
+ phi4: 85 (0.00% more effective than phi-4)
16
+ �|�|든| 인|간|은| �|�|어|�|�| 때|부|터| 자|�|�|로|우|�|�| 그| �|��|�|�|과| �|�|�|리|에| 있|어| �|�|�|�|하|다|.| 인|간|은| �|�|부|적|으로| 이|성|과| �|�|�|�|을| 부|여|�|�|�|�|으|�|�| 서|로| �|�|제|�|�|의| 정|신|으로| �|��|동|하여|야| 한|다|.
17
 
18
+ phi4-jamo: 39 (117.95% more effective than phi-4)
19
+ 모든| 인간은| 태어나|ᆯ 때|부터| 자유|로우|며| 그| 존|엄|과| 권리|에 있어| 동|등|하다|.| 인간은| 천|부|적으로| 이|성과| 양|심을| 부여|받아|ᆻ으며| 서로| 형제|애|의 정|신|으로| 행동|하여|야 한다|.
20
 
21
+ phi4-mini: 51 (66.67% more effective than phi-4)
22
+ 모|든| 인간|은| 태|어|날| 때|부터| 자유|로|우|며| 그| 존|엄|과| 권|리에| 있어| 동|등|하다|.| 인간|은| 천|부|적으로| 이|성과| 양|심|을| 부|여|받|았|으며| 서로| 형|제|애|의| 정신|으로| 행동|하여|야| 한다|.
23
 
24
+ phi4-mini-jamo: 39 (117.95% more effective than phi-4)
25
+ 모든| 인간은| 태어나|ᆯ 때|부터| 자유|로우|며| 그| 존|엄|과| 권리|에 있어| 동|등|하다|.| 인간은| 천|부|적으로| 이|성과| 양|심을| 부여|받아|ᆻ으며| 서로| 형제|애|의 정|신|으로| 행동|하여|야 한다|.
26
+
27
+ jamo-exp1: 39 (117.95% more effective than phi-4)
28
+ 모든|인간은|태어나|ᆯ 때|부터|자유|로우|며|그|존|엄|과|권리|에 있어|동|등|하다|.|인간은|천|부|적으로|이|성과|양|심을|부여|받아|ᆻ으며|서로|형제|애|의 정|신|으로|행동|하여|야 한다|.
29
+
30
+ gpt-4o: 51 (66.67% more effective than phi-4)
31
+ 모|든| 인간|은| 태|어|날| 때|부��| 자유|로|우|며| 그| 존|엄|과| 권|리에| 있어| 동|등|하다|.| 인간|은| 천|부|적으로| 이|성과| 양|심|을| 부|여|받|았|으며| 서로| 형|제|애|의| 정신|으로| 행동|하여|야| 한다|.
32
 
33
  Text:
34
  ```
 
46
  커뮤니티에 참여하시려면 Hub, 포럼, 디스코드를 방문해주세요!
47
  ```
48
  <details> <summary>토큰 단위 결과</summary>
49
+ phi4: 540 (0.00% more effective than phi-4)
50
+ Py|T|orch|,| TensorFlow|,| J|AX|를| 위|한| 최|�|�|�|�| �|�|�|신|러|�|�|
51
 
52
  |�|�|�| Transformers|는| 사|전|�|�|습|된| 최|�|�|�|�| 모|�|�|들|을| �|�|�|게| 다|운|로|드|하|고| �|�|�|�|�|시|�|��| 수| 있는| API|와| �|�|구|를| 제|공|합니다|.| 사|전|�|�|습|된| 모|�|�|을| �|�|�|면| �|�|�|�|�|�|�| 비|용|과| �|�|소| 배|출|�|�|이| �|�|고|,| 모|�|�|을| 처|음|부|터| �|�|�|�|�|시|�|��|는| �|��| 필|요|한| 시|간|과| 리|소|스|를| �|�|�|�|할| 수| 있|습니다|.| �|�|�|�|�| 모|�|�|들|은| 다|�|�|한| �|�|야|의| �|�|스|크|를| 지|원|합니다|.
53
 
 
58
 
59
  |�|�|�| Transformers|는| Py|T|orch|,| TensorFlow|와| J|AX| �|�|의| 상|호|운|용|성|을| 지|원|합니다|.| �|�|�|�|하|게| 모|�|�|의| �|�| �|�|�|�|�|�다| 다|른| 프|�|�|임|�|�|크|를| 사용|할| 수|도| 있|습니다|.| 예|를| �|�|어| 코드| |3|�|�|만| �|�|�|서| 모|�|�|을| �|�|�|�|�|시|�|��| 다|음|,| 다|른| 프|�|�|임|�|�|크| 상|에서| 추|�|�|할| 수| 있|습니다|.| 모|�|�|을| �|�|�|�| �|�|경|에| 배|�|�|�|하기| 위|해| ON|NX|나| Torch|Script| �|�|식|으로| 내|보|�|�| 수|도| 있|습니다|.
60
 
61
+ |�|�|�|�|�|�|니|�|�|�|에| �|�|여|하|시|�|�|면| Hub|,| 포|�|�|,| �|�|스|�|��드|를| 방|문|해|주세요|!
 
 
62
 
63
+ phi4-jamo: 291 (85.57% more effective than phi-4)
64
+ Py|T|orch|,| TensorFlow|,| J|AX|를| 위한| 최|첨|단| 머|신|러|닝|
65
+ |
66
+ |�|�|�| Transformers|는| 사전|학습|된| 최|첨|단| 모델|들을| 쉽게| 다|운|로드|하고| 훈련|시키|ᆯ 수 있는| API|와| 도|구를| 제공합니다|.| 사전|학습|된| 모델을| 쓰|면| ᄏ|ᅥᆷ퓨|팅| 비용|과| 탄소| 배출|량이| 줄|고|,| 모델을| 처음|부터| 훈련|시키는 데| 필요한| 시간과| 리|소|스를| 절|약하|ᆯ 수 있습니다|.| 저|희| 모델|들은| 다양한| 분야|의| 태|스크|를| 지원|합니다|.
67
 
68
  |�|�|�| 자연|어| 처리|:| 텍|스트| 분류|,| 개|체|명| 인식|,| 질의|응답|,| 언어| 모데|ᆯ링|,| 요약|,| 버��|역|,| 객|관|식| 질의|응답|,| 텍|스트| 생성|
69
  |�|�|�|️| 컴퓨터| 비|전|:| 이미지| 분류|,| 객|체| 탐|지|,| 객|체| 분|할|
70
  |�|�|�|️| 오|디오|:| 자동|음성|인식|,| 오|디오| 분류|
71
  |�|�|�| 멀티|모|달|:| 표| 질의|응답|,| 광학| 문자| 인식| |(|OCR|),| 스|캐|ᆫ|한| 문|서|에서| 정보| 추출|,| 비디오| 분류|,| 시각| 질의|응답|
72
+ |
73
+ |�|�|�| Transformers|는| Py|T|orch|,| TensorFlow|와| J|AX| 간|의 상호|운용|성을| 지원|합니다|.| 유연|하게| 모데|ᆯ의| 각| 단계|마다| 다른| 프레임|워크|를 사용|할 수도| 있습니다|.| 예를 들어| 코드| |3|줄|만| 써|서| 모델을| 훈련|시킨| 다음|,| 다른| 프레임|워크| 상에서| 추|론|할 수 있|습니다|.| 모델을| 운영| 환경|에| 배|포|하기 위해| ON|NX|나| Torch|Script| 형|식으로| 내|보내|ᆯ 수도| 있습니다|.
74
 
75
+ |커뮤니티|에 참여|하시|려면| Hub|,| 포|럼|,| 디|스코|드를| 방문|해주|세요|!
76
 
77
+ phi4-mini: 353 (52.97% more effective than phi-4)
78
+ Py|Torch|,| Tensor|Flow|,| J|AX|를| 위한| 최|첨|단| 머신|러|닝|
79
 
80
+ |�|�| Transformers|는| 사|전|학|습|된| 최|첨|단| 모델|들을| 쉽게| 다운로드|하고| �|��|련|시|킬| 수| 있는| API|와| 도|구|를| 제공합니다|.| 사|전|학|습|된| 모델|을| 쓰|면| 컴|퓨|팅| 비용|과| 탄|소| 배|출|량|이| 줄|고|,| 모델|을| 처음|부터| �|��|련|시키|는| 데| 필요한| 시간|과| 리|소|스를| 절|약|할| 수| 있습니다|.| 저|희| 모델|들은| 다양한| 분야|의| 태|스크|를| 지원|합니다|.
81
 
82
+ |�|��| 자연|어| 처리|:| �|�|스트| 분|류|,| 개|체|명| 인|식|,| 질|의|응|답|,| 언|어| 모델|링|,| 요|약|,| 번|역|,| 객|관|식| 질|의|응|답|,| �|�|스트| 생성|
83
+ |�|�|�|️| 컴|퓨터| 비|전|:| 이미지| 분|류|,| 객체| 탐|지|,| 객체| 분|할|
84
+ |�|�|�|️| 오|디오|:| 자동|음|성|인|식|,| 오|디오| 분|류|
85
+ |�|�| �|�|티|모|달|:| 표| 질|의|응|답|,| 광|학| 문자| 인|식| (|OCR|),| 스|�|�|한| 문|서|에서| 정보| 추|출|,| 비|디오| 분|류|,| 시|각| 질|의|응|답|
86
 
87
+ |�|�| Transformers|는| Py|Torch|,| Tensor|Flow|와| J|AX| 간|의| 상|호|운|용|성을| 지원|합니다|.| 유|연|하게| 모델|의| 각| 단계|마다| 다른| 프|레|임|워크|를| 사용할| 수도| 있습니다|.| 예|를| 들어| 코드| |3|줄|만| �|�|서| 모델|을| �|��|련|시|킨| 다음|,| 다른| 프|레|임|워크| 상|에서| 추|론|할| 수| 있습니다|.| 모델|을| 운영| 환경|에| 배|포|하기| 위해| ON|NX|나| Torch|Script| 형|식|으로| 내|보|낼| 수도| 있습니다|.
88
+
89
+ |커|뮤니|티|에| 참여|하시|려|면| Hub|,| 포|럼|,| 디|스|코|드를| 방문|해주세요|!
90
+
91
+ phi4-mini-jamo: 287 (88.15% more effective than phi-4)
92
+ Py|Torch|,| Tensor|Flow|,| J|AX|를| 위한| 최|첨|단| 머|신|러|닝|
93
+ |
94
+ |�|�| Transformers|는| 사전|학습|된| 최|첨|단| 모델|들을| 쉽게| 다|운|로드|하고| 훈련|시키|ᆯ 수 있는| API|와| 도|구를| 제공합니다|.| 사전|학습|된| 모델을| 쓰|면| ᄏ|ᅥᆷ퓨|팅| 비용|과| 탄소| 배출|량이| 줄|고|,| 모델을| 처음|부터| 훈련|시키는 데| 필요한| 시간과| 리|소|스를| 절|약하|ᆯ 수 있습니다|.| 저|희| 모델|들은| 다양한| 분야|의| 태|스크|를| 지원|합니다|.
95
+
96
+ |�|��| 자연|어| 처리|:| 텍|스트| 분류|,| 개|체|명| 인식|,| 질의|응답|,| 언어| 모데|ᆯ링|,| 요약|,| 번|역|,| 객|관|식| 질의|응답|,| 텍|스트| 생성|
97
  |�|�|�|️| 컴퓨터| 비|전|:| 이미지| 분류|,| 객|체| 탐|지|,| 객|체| 분|할|
98
  |�|�|�|️| 오|디오|:| 자동|음성|인식|,| 오|디오| 분류|
99
+ |�|�| 멀티|모|달|:| 표| 질의|응답|,| 광학| 문자| 인식| |(O|CR|),| 스|캐|ᆫ|한| 문|서|에서| 정보| 추출|,| 비디오| 분류|,| 시각| 질의|응답|
100
+ |
101
+ |�|�| Transformers|는| Py|Torch|,| Tensor|Flow|와| J|AX| 간|의 상호|��ᅮᆫ용|성을| 지원|합니다|.| 유연|하게| 모데|ᆯ의| 각| 단계|마다| 다른| 프레임|워크|를 사용|할 수도| 있습니다|.| 예를 들어| 코드| |3|줄|만| 써|서| 모델을| 훈련|시킨| 다음|,| 다른| 프레임|워크| 상에서| 추|론|할 수 있|습니다|.| 모델을| 운영| 환경|에| 배|포|하기 위해| ON|NX|나| Torch|Script| 형|식으로| 내|보내|ᆯ 수도| 있습니다|.
102
 
103
+ |커뮤니티|에 참여|하시|려면| Hub|,| 포|럼|,| 디|스코|드를| 방문|해주|세요|!
104
 
105
+ jamo-exp1: 345 (56.52% more effective than phi-4)
106
+ P|y|T|or|ch|,|T|en|s|or|F|lo|w|,|J|A|X|를 위한|최|첨|단|머|신|러|닝|
107
  |
108
  |�|�|�|�|T|r|an|s|for|m|ers|는 사|전|학습|된|최|첨|단|모델|들을|쉽게|다|운|로드|하고|훈련|시키|ᆯ 수 있는|AP|I|와|도|구를|제공합니다|.|사전|학습|된|모델을|쓰|면|ᄏ|ᅥᆷ퓨|팅|비용|과|탄소|배출|량이|줄|고|,|모델을|처음|부터|훈련|시키는 데|필요한|시간과|리|소|스를|절|약하|ᆯ 수 있습니다|.|저|희|모델|들은|다양한|분야|의|태|스크|를|지원|합니다|.|
109
  |
 
114
  |
115
  |�|�|�|�|T|r|an|s|for|m|ers|는|P|y|T|or|ch|,|T|en|s|or|F|lo|w|와|J|A|X|간|의 상호|운용|성을|지원|합니다|.|유연|하게|모데|ᆯ의|각|단계|마다|다른|프레임|워크|를 사용|할 수도|있습니다|.|예를 들어|코드||3|줄|만|써|서|모델을|훈련|시킨|다음|,|다른|프레임|워크|상에서|추|론|할 수 있|습니다|.|모델을|운영|환경|에|배|포|하기 위해|ON|N|X|나|T|or|ch|S|c|ri|p|t|형|식으로|내|보내|ᆯ 수도|있습니다|.|
116
  |
117
+ |커뮤니티|에 참여|하시|려면|H|ub|,|포|럼|,|디|스코|드를|방문|해주|세요|!
118
+
119
+ gpt-4o: 353 (52.97% more effective than phi-4)
120
+ Py|Torch|,| Tensor|Flow|,| J|AX|를| 위한| 최|첨|단| 머신|러|닝|
121
+
122
+ |�|�| Transformers|는| 사|전|학|습|된| 최|첨|단| 모델|들을| 쉽게| 다운로드|하고| �|��|련|시|킬| 수| 있는| API|와| 도|구|를| 제공합니다|.| 사|전|학|습|된| 모델|을| 쓰|면| 컴|퓨|팅| 비용|과| 탄|소| 배|출|량|이| 줄|고|,| 모델|을| 처음|부터| �|��|련|시키|는| 데| 필요한| 시간|과| 리|소|스를| 절|약|할| 수| 있습니다|.| 저|희| 모델|들은| 다양한| 분야|의| 태|스크|를| 지원|합니다|.
123
+
124
+ |�|��| 자연|어| 처리|:| �|�|스트| 분|류|,| 개|체|명| 인|식|,| 질|의|응|답|,| 언|어| 모델|링|,| 요|약|,| 번|역|,| 객|관|식| 질|의|응|답|,| �|�|스트| 생성|
125
+ |�|�|�|️| 컴|퓨터| 비|전|:| 이미지| 분|류|,| 객체| 탐|지|,| 객체| 분|할|
126
+ |�|�|�|️| 오|디오|:| 자동|음|성|인|식|,| 오|디오| 분|류|
127
+ |�|�| �|�|티|모|달|:| 표| 질|의|응|답|,| 광|학| 문자| 인|식| (|OCR|),| 스|�|�|한| 문|서|에서| 정보| 추|출|,| 비|디오| 분|류|,| 시|각| 질|의|응|답|
128
+
129
+ |�|�| Transformers|는| Py|Torch|,| Tensor|Flow|와| J|AX| 간|의| 상|호|운|용|성을| 지원|합니다|.| 유|연|하게| 모델|의| 각| 단계|마다| 다른| 프|레|임|워크|를| 사용할| 수도| 있습니다|.| 예|를| 들어| 코드| |3|줄|만| �|�|서| 모델|을| �|��|련|시|킨| 다음|,| 다른| 프|레|임|워크| 상|에서| 추|론|할| 수| 있습니다|.| 모델|을| 운영| 환경|에| 배|포|하기| 위해| ON|NX|나| Torch|Script| 형|식|으로| 내|보|낼| 수도| 있습니다|.
130
+
131
+ |커|뮤니|티|에| 참여|하시|려|면| Hub|,| 포|럼|,| 디|스|코|드를| 방문|해주세요|!</details>
132
 
133
  phi4: 540 (0.00% more effective than phi-4)
134
 
135
+ phi4-jamo: 291 (85.57% more effective than phi-4)
136
 
137
+ phi4-mini: 353 (52.97% more effective than phi-4)
138
+
139
+ phi4-mini-jamo: 287 (88.15% more effective than phi-4)
140
 
141
  jamo-exp1: 345 (56.52% more effective than phi-4)
142
 
143
+ gpt-4o: 353 (52.97% more effective than phi-4)
144
+
145
  **다국어 예시**: 원래 토크나이저와 동일
146
 
147
+ Text:
148
+ ```
149
+ State-of-the-art Machine Learning for PyTorch, TensorFlow, and JAX.
150
+
151
+ 🤗 Transformers provides APIs and tools to easily download and train state-of-the-art pretrained models. Using pretrained models can reduce your compute costs, carbon footprint, and save you the time and resources required to train a model from scratch. These models support common tasks in different modalities, such as:
152
+
153
+ 📝 Natural Language Processing: text classification, named entity recognition, question answering, language modeling, code generation, summarization, translation, multiple choice, and text generation.
154
+ 🖼️ Computer Vision: image classification, object detection, and segmentation.
155
+ 🗣️ Audio: automatic speech recognition and audio classification.
156
+ 🐙 Multimodal: table question answering, optical character recognition, information extraction from scanned documents, video classification, and visual question answering.
157
+
158
+ 🤗 Transformers support framework interoperability between PyTorch, TensorFlow, and JAX. This provides the flexibility to use a different framework at each stage of a model’s life; train a model in three lines of code in one framework, and load it for inference in another. Models can also be exported to a format like ONNX and TorchScript for deployment in production environments.
159
+
160
+ Join the growing community on the Hub, forum, or Discord today!
161
+ ```
162
+
163
+ <details> <summary>토큰 단위 결과</summary>
164
+ phi4: 261 (0.00% more effective than phi-4)
165
+ State|-of|-the|-art| Machine| Learning| for| Py|T|orch|,| TensorFlow|,| and| J|AX|.
166
+
167
+ |�|�|�| Transformers| provides| APIs| and| tools| to| easily| download| and| train| state|-of|-the|-art| pretrained| models|.| Using| pretrained| models| can| reduce| your| compute| costs|,| carbon| footprint|,| and| save| you| the| time| and| resources| required| to| train| a| model| from| scratch|.| These| models| support| common| tasks| in| different| modal|ities|,| such| as|:
168
+
169
+ |�|�|�| Natural| Language| Processing|:| text| classification|,| named| entity| recognition|,| question| answering|,| language| modeling|,| code| generation|,| summar|ization|,| translation|,| multiple| choice|,| and| text| generation|.
170
+ |�|�|�|️| Computer| Vision|:| image| classification|,| object| detection|,| and| segmentation|.
171
+ |�|�|�|️| Audio|:| automatic| speech| recognition| and| audio| classification|.
172
+ |�|�|�| Mult|im|odal|:| table| question| answering|,| optical| character| recognition|,| information| extraction| from| scanned| documents|,| video| classification|,| and| visual| question| answering|.
173
+
174
+ |�|�|�| Transformers| support| framework| interoper|ability| between| Py|T|orch|,| TensorFlow|,| and| J|AX|.| This| provides| the| flexibility| to| use| a| different| framework| at| each| stage| of| a| model|’s| life|;| train| a| model| in| three| lines| of| code| in| one| framework|,| and| load| it| for| inference| in| another|.| Models| can| also| be| exported| to| a| format| like| ON|NX| and| Torch|Script| for| deployment| in| production| environments|.
175
+
176
+ |Join| the| growing| community| on| the| Hub|,| forum|,| or| Discord| today|!
177
+
178
+ phi4-jamo: 261 (0.00% more effective than phi-4)
179
+ State|-of|-the|-art| Machine| Learning| for| Py|T|orch|,| TensorFlow|,| and| J|AX|.
180
+
181
+ |�|�|�| Transformers| provides| APIs| and| tools| to| easily| download| and| train| state|-of|-the|-art| pretrained| models|.| Using| pretrained| models| can| reduce| your| compute| costs|,| carbon| footprint|,| and| save| you| the| time| and| resources| required| to| train| a| model| from| scratch|.| These| models| support| common| tasks| in| different| modal|ities|,| such| as|:
182
+
183
+ |�|�|�| Natural| Language| Processing|:| text| classification|,| named| entity| recognition|,| question| answering|,| language| modeling|,| code| generation|,| summar|ization|,| translation|,| multiple| choice|,| and| text| generation|.
184
+ |�|�|�|️| Computer| Vision|:| image| classification|,| object| detection|,| and| segmentation|.
185
+ |�|�|�|️| Audio|:| automatic| speech| recognition| and| audio| classification|.
186
+ |�|�|�| Mult|im|odal|:| table| question| answering|,| optical| character| recognition|,| information| extraction| from| scanned| documents|,| video| classification|,| and| visual| question| answering|.
187
+
188
+ |�|�|�| Transformers| support| framework| interoper|ability| between| Py|T|orch|,| TensorFlow|,| and| J|AX|.| This| provides| the| flexibility| to| use| a| different| framework| at| each| stage| of| a| model|’s| life|;| train| a| model| in| three| lines| of| code| in| one| framework|,| and| load| it| for| inference| in| another|.| Models| can| also| be| exported| to| a| format| like| ON|NX| and| Torch|Script| for| deployment| in| production| environments|.
189
+
190
+ |Join| the| growing| community| on| the| Hub|,| forum|,| or| Discord| today|!
191
+
192
+ phi4-mini: 255 (2.35% more effective than phi-4)
193
+ State|-of|-the|-art| Machine| Learning| for| Py|Torch|,| Tensor|Flow|,| and| J|AX|.
194
+
195
+ |�|�| Transformers| provides| APIs| and| tools| to| easily| download| and| train| state|-of|-the|-art| pretrained| models|.| Using| pretrained| models| can| reduce| your| compute| costs|,| carbon| footprint|,| and| save| you| the| time| and| resources| required| to| train| a| model| from| scratch|.| These| models| support| common| tasks| in| different| modalities|,| such| as|:
196
+
197
+ |�|��| Natural| Language| Processing|:| text| classification|,| named| entity| recognition|,| question| answering|,| language| modeling|,| code| generation|,| summar|ization|,| translation|,| multiple| choice|,| and| text| generation|.
198
+ |�|�|�|️| Computer| Vision|:| image| classification|,| object| detection|,| and| segmentation|.
199
+ |�|�|�|️| Audio|:| automatic| speech| recognition| and| audio| classification|.
200
+ |�|�| Mult|im|odal|:| table| question| answering|,| optical| character| recognition|,| information| extraction| from| scanned| documents|,| video| classification|,| and| visual| question| answering|.
201
+
202
+ |�|�| Transformers| support| framework| interoperability| between| Py|Torch|,| Tensor|Flow|,| and| J|AX|.| This| provides| the| flexibility| to| use| a| different| framework| at| each| stage| of| a| model|’s| life|;| train| a| model| in| three| lines| of| code| in| one| framework|,| and| load| it| for| inference| in| another|.| Models| can| also| be| exported| to| a| format| like| ON|NX| and| Torch|Script| for| deployment| in| production| environments|.
203
+
204
+ |Join| the| growing| community| on| the| Hub|,| forum|,| or| Discord| today|!
205
+
206
+ phi4-mini-jamo: 255 (2.35% more effective than phi-4)
207
+ State|-of|-the|-art| Machine| Learning| for| Py|Torch|,| Tensor|Flow|,| and| J|AX|.
208
+
209
+ |�|�| Transformers| provides| APIs| and| tools| to| easily| download| and| train| state|-of|-the|-art| pretrained| models|.| Using| pretrained| models| can| reduce| your| compute| costs|,| carbon| footprint|,| and| save| you| the| time| and| resources| required| to| train| a| model| from| scratch|.| These| models| support| common| tasks| in| different| modalities|,| such| as|:
210
+
211
+ |�|��| Natural| Language| Processing|:| text| classification|,| named| entity| recognition|,| question| answering|,| language| modeling|,| code| generation|,| summar|ization|,| translation|,| multiple| choice|,| and| text| generation|.
212
+ |�|�|�|️| Computer| Vision|:| image| classification|,| object| detection|,| and| segmentation|.
213
+ |�|�|�|️| Audio|:| automatic| speech| recognition| and| audio| classification|.
214
+ |�|�| Mult|im|odal|:| table| question| answering|,| optical| character| recognition|,| information| extraction| from| scanned| documents|,| video| classification|,| and| visual| question| answering|.
215
+
216
+ |�|�| Transformers| support| framework| interoperability| between| Py|Torch|,| Tensor|Flow|,| and| J|AX|.| This| provides| the| flexibility| to| use| a| different| framework| at| each| stage| of| a| model|’s| life|;| train| a| model| in| three| lines| of| code| in| one| framework|,| and| load| it| for| inference| in| another|.| Models| can| also| be| exported| to| a| format| like| ON|NX| and| Torch|Script| for| deployment| in| production| environments|.
217
+
218
+ |Join| the| growing| community| on| the| Hub|,| forum|,| or| Discord| today|!
219
+
220
+ jamo-exp1: 710 (-63.24% more effective than phi-4)
221
+ St|ate|-|of|-|the|-|art|M|ac|hi|n|e|L|e|ar|n|ing|for|P|y|T|or|ch|,|T|en|s|or|F|lo|w|,|and|J|A|X|.|
222
+ |
223
+ |�|�|�|�|T|r|an|s|for|m|ers|pro|v|id|es|AP|I|s|and|to|ol|s|to|e|a|si|ly|d|ow|n|lo|ad|and|tr|ain|st|ate|-|of|-|the|-|art|p|r|et|r|ain|ed|m|od|el|s|.|U|si|ng|p|r|et|r|ain|ed|m|od|el|s|c|an|r|ed|uc|e|y|our|com|p|ut|e|c|o|st|s|,|c|ar|b|on|f|o|ot|p|r|in|t|,|and|s|av|e|y|ou|the|t|im|e|and|r|es|our|c|es|re|qu|ir|ed|to|tr|ain|a|m|od|el|f|ro|m|s|c|r|at|ch|.|T|h|es|e|m|od|el|s|s|up|p|ort|com|m|on|t|as|k|s|in|d|if|f|er|ent|m|od|al|it|ies|,|s|u|ch|as|:|
224
+ |
225
+ |�|�|�|�|N|at|ur|al|L|ang|u|ag|e|P|ro|c|es|si|ng|:|t|ex|t|c|l|as|si|f|ic|ation|,|n|am|ed|ent|ity|r|ec|og|n|it|ion|,|qu|est|ion|an|s|w|er|ing|,|l|ang|u|ag|e|m|od|el|ing|,|c|od|e|g|en|er|ation|,|s|um|m|ar|iz|ation|,|tr|an|s|l|ation|,|m|ult|ip|le|ch|o|ic|e|,|and|t|ex|t|g|en|er|ation|.|
226
+ |�|�|�|�|�|�|�|C|om|p|ut|er|V|i|sion|:|im|ag|e|c|l|as|si|f|ic|ation|,|ob|j|ect|d|et|ect|ion|,|and|s|eg|ment|ation|.|
227
+ |�|�|�|�|�|�|�|A|ud|i|o|:|a|ut|om|at|ic|sp|e|ec|h|r|ec|og|n|it|ion|and|a|ud|i|o|c|l|as|si|f|ic|ation|.|
228
+ |�|�|�|�|M|ult|im|od|al|:|t|ab|le|qu|est|ion|an|s|w|er|ing|,|op|t|ical|ch|ar|ac|ter|r|ec|og|n|it|ion|,|in|for|m|ation|ex|tr|act|ion|f|ro|m|s|c|an|n|ed|d|oc|um|ent|s|,|v|id|e|o|c|l|as|si|f|ic|ation|,|and|v|is|u|al|qu|est|ion|an|s|w|er|ing|.|
229
+ |
230
+ |�|�|�|�|T|r|an|s|for|m|ers|s|up|p|ort|f|r|am|ew|or|k|in|ter|op|er|ab|il|ity|b|et|w|e|en|P|y|T|or|ch|,|T|en|s|or|F|lo|w|,|and|J|A|X|.|T|hi|s|pro|v|id|es|the|f|le|x|ib|il|ity|to|us|e|a|d|if|f|er|ent|f|r|am|ew|or|k|at|e|ac|h|st|ag|e of|a|m|od|el|�|�|�|s|l|if|e|;|tr|ain|a|m|od|el|in|th|re|e|l|in|es|of|c|od|e|in|on|e|f|r|am|ew|or|k|,|and|lo|ad|it|for|in|f|er|enc|e|in|an|ot|h|er|.|M|od|el|s|c|an|al|s|o|b|e|ex|p|ort|ed|to|a|for|m|at|l|i|k|e|ON|N|X|and|T|or|ch|S|c|ri|p|t|for|d|ep|lo|y|ment|in|pro|d|uc|tion|en|v|ir|on|ment|s|.|
231
+ |
232
+ |J|o|in|the|g|ro|w|ing|com|m|un|ity|on|the|H|ub|,|for|um|,|or|D|is|c|or|d|t|od|ay|!
233
+
234
+ gpt-4o: 255 (2.35% more effective than phi-4)
235
+ State|-of|-the|-art| Machine| Learning| for| Py|Torch|,| Tensor|Flow|,| and| J|AX|.
236
+
237
+ |�|�| Transformers| provides| APIs| and| tools| to| easily| download| and| train| state|-of|-the|-art| pretrained| models|.| Using| pretrained| models| can| reduce| your| compute| costs|,| carbon| footprint|,| and| save| you| the| time| and| resources| required| to| train| a| model| from| scratch|.| These| models| support| common| tasks| in| different| modalities|,| such| as|:
238
+
239
+ |�|��| Natural| Language| Processing|:| text| classification|,| named| entity| recognition|,| question| answering|,| language| modeling|,| code| generation|,| summar|ization|,| translation|,| multiple| choice|,| and| text| generation|.
240
+ |�|�|�|️| Computer| Vision|:| image| classification|,| object| detection|,| and| segmentation|.
241
+ |�|�|�|️| Audio|:| automatic| speech| recognition| and| audio| classification|.
242
+ |�|�| Mult|im|odal|:| table| question| answering|,| optical| character| recognition|,| information| extraction| from| scanned| documents|,| video| classification|,| and| visual| question| answering|.
243
+
244
+ |�|�| Transformers| support| framework| interoperability| between| Py|Torch|,| Tensor|Flow|,| and| J|AX|.| This| provides| the| flexibility| to| use| a| different| framework| at| each| stage| of| a| model|’s| life|;| train| a| model| in| three| lines| of| code| in| one| framework|,| and| load| it| for| inference| in| another|.| Models| can| also| be| exported| to| a| format| like| ON|NX| and| Torch|Script| for| deployment| in| production| environments|.
245
+
246
+ |Join| the| growing| community| on| the| Hub|,| forum|,| or| Discord| today|!
247
+ </details>
248
+
249
+ phi4: 261 (0.00% more effective than phi-4)
250
+
251
+ phi4-jamo: 261 (0.00% more effective than phi-4)
252
 
253
+ phi4-mini: 255 (2.35% more effective than phi-4)
254
 
255
+ phi4-mini-jamo: 255 (2.35% more effective than phi-4)
256
 
257
+ jamo-exp1: 710 (-63.24% more effective than phi-4)
258
 
259
+ gpt-4o: 255 (2.35% more effective than phi-4)