SetFit with mini1013/master_domain

This is a SetFit model that can be used for Text Classification. This SetFit model uses mini1013/master_domain as the Sentence Transformer embedding model. A LogisticRegression instance is used for classification.

The model has been trained using an efficient few-shot learning technique that involves:

Fine-tuning a Sentence Transformer with contrastive learning.
Training a classification head with features from the fine-tuned Sentence Transformer.

Model Details

Model Description

Model Type: SetFit
Sentence Transformer body: mini1013/master_domain
Classification head: a LogisticRegression instance
Maximum Sequence Length: 512 tokens
Number of Classes: 11 classes

Model Sources

Repository: SetFit on GitHub
Paper: Efficient Few-Shot Learning Without Prompts
Blogpost: SetFit: Efficient Few-Shot Learning Without Prompts

Model Labels

Label	Examples
0.0	'홀아트 플러스 모델링페이스트 2L P47-14 은계알파문구주식회사' '알파 실버 아크릴물감 50ml 낱색 #943 Brilliant purple 화방 스토리' 'gamin 아크릴물감 대용량 500ml 물감놀이 퍼포먼스미술 집콕놀이 29색 # 레몬 옐로우 #13. 스카이 블루 홍당무'
4.0	'묵운당 먹 소광 소(4정) 서예 캘리 동양화 한국화 사군자 민화 한국서예유통' '타지마 먹물 PSS2-180 주황색 적색 먹치기 먹통용 청색 킬리만자로타이거' '먹통 자동 선긋기 먹줄 먹실 휴대용 초크라인 먹물 단일 메가물류'
8.0	'국내제작 50호 유화 면천 미송정왁구 캔버스 빈센트캔버스 F형 P형(풍경) (116.7 x 80.3)_50호(면천)_미송정왁구 코믹샵' '색 운용 한지 포장 공예 64 x 94cm 색 운용 한지_23 자주색 덕인색채' '양면 골판지 공예 A4 10장 516g 구구문구'
9.0	'도자기물레 돌림판 도예 회전판 미니 공방 전동 250W 삼각형 LCD 페달 독점 에디션 리그나이트' '나무 판 조각 공예 보드 원형 목재 반제품 그림 10개 지름 12-13cm 두께 1cm 10개입 오봉샵' '실크스크린 프레임 / 망사 견장 / 15x20 프레임 목재_50x60_60목 견장된 프레임 2개 세트 지디큐 팩토리 (GDQ factory)'
6.0	'LED 그림판 드로잉 보드 A4 3 스케치 웹툰 연습 복사 카피 미술 화방 교보재 A3 사이즈(대형) 주식회사 모든지코퍼레이션' '필름 라이트박스 반사 A4 A3 보드 스튜디오 A3+ 3단 디밍 USB 케이블 대형 사이즈 곤이형보물상자2' '라이트박스 A2 자석부착식 전용아답타 Oasis4N 포함 C.C.A2삼색컬러명암조절USB포트 어트랙션 B2C'
1.0	'화구함 미술도구 보관 미대생 물감 박스 정리함 붓 케이스 휴대용 그림통 05.스몰 그레이 A타입 3단 카미유상회' '산돌 천 붓케이스 미니 소형 대형 BC- 1701 소형 (주)누보아트' '마르지않는 붓 보관함 미술통 수채화 휴대용 서예 미술 단일 구멍 펜 홀더 (선물 상자) 달라브샵'
3.0	'박물관이인정한 문방사우 세필족제비 면상필 대 서예붓 민화붓 동양화붓 2. 채색필_2-5 겸호 채색필 소 율아트' '쿠레타케 워터브러쉬 소 쿠레타케 워터브러쉬 (대) 주식회사 아트클라우드' '루벤스 스텐실 8000 5호 (1개) 양상추수입창고'
7.0	'원단 우드락 5T 60cm x 90cm 대량(박스단위) ★대용량 백색5T 60x90(1박스50개) 문화사' '단열 압축 방음패드 폼보드 빨간색 스티로폼 하얀색 27 화이트 두께 5센티 가로50센티 가로50 플로랄퓨전' '단열 압축 방음패드 폼보드 빨간색 스티로폼 하얀색 39 흰색 두께 9센티 가로50센티 가로50센 플로랄퓨전'
10.0	'리트다이 액체 (패브릭/면 /섬유) 리트다이 액체_액체 42번 Golden Yellow 모든종합상사' '리트다이 액체 (패브릭/면 /섬유) 리트다이 액체_액체 17번 Violet 모든종합상사' '리트다이 액체 (패브릭/면 /섬유) 리트다이 액체_액체 4번 Teal 모든종합상사'
2.0	'미술 화구통 소형 허니블루프렌즈' '이젤 철제 대형 휴대용 일반형 [가벼운] 알루미늄 이젤-실버 다담다 주식회사' '미젤로 다기능 물통 2L 주식회사 나라유통'
5.0	'오일파스텔 48색 전문가용 1P 오일파스텔전용 스윗딜' '문교 오일파스텔 48색 MOP-48 세트1개 [5010676]단일상품 (주)장학문구사' '문교 전문가용 소프트 오일파스텔 MOPV 오일파스텔 MOPV (주)대림유통서비스'

Evaluation

Metrics

Label	Metric
all	0.9702

Uses

Direct Use for Inference

First install the SetFit library:

pip install setfit

Then you can load this model and run inference.

from setfit import SetFitModel

# Download from the 🤗 Hub
model = SetFitModel.from_pretrained("mini1013/master_cate_lh27")
# Run inference
preds = model("다이론 뉴핸드염료 의류 옷 면소재 패브릭 섬유 염색 36.튤립레드 싹다몰")

Training Details

Training Set Metrics

Training set	Min	Median	Max
Word count	3	10.5	23

Label	Training Sample Count
0.0	50
1.0	50
2.0	50
3.0	50
4.0	50
5.0	50
6.0	50
7.0	50
8.0	50
9.0	50
10.0	50

Training Hyperparameters

batch_size: (512, 512)
num_epochs: (20, 20)
max_steps: -1
sampling_strategy: oversampling
num_iterations: 40
body_learning_rate: (2e-05, 2e-05)
head_learning_rate: 2e-05
loss: CosineSimilarityLoss
distance_metric: cosine_distance
margin: 0.25
end_to_end: False
use_amp: False
warmup_proportion: 0.1
seed: 42
eval_max_steps: -1
load_best_model_at_end: False

Training Results

Epoch	Step	Training Loss	Validation Loss
0.0116	1	0.4265	-
0.5814	50	0.2849	-
1.1628	100	0.1489	-
1.7442	150	0.0544	-
2.3256	200	0.0363	-
2.9070	250	0.0257	-
3.4884	300	0.0122	-
4.0698	350	0.0138	-
4.6512	400	0.0088	-
5.2326	450	0.0043	-
5.8140	500	0.0004	-
6.3953	550	0.0003	-
6.9767	600	0.0001	-
7.5581	650	0.0001	-
8.1395	700	0.0001	-
8.7209	750	0.0001	-
9.3023	800	0.0001	-
9.8837	850	0.0001	-
10.4651	900	0.0001	-
11.0465	950	0.0001	-
11.6279	1000	0.0001	-
12.2093	1050	0.0001	-
12.7907	1100	0.0001	-
13.3721	1150	0.0	-
13.9535	1200	0.0	-
14.5349	1250	0.0	-
15.1163	1300	0.0001	-
15.6977	1350	0.0	-
16.2791	1400	0.0	-
16.8605	1450	0.0	-
17.4419	1500	0.0	-
18.0233	1550	0.0	-
18.6047	1600	0.0	-
19.1860	1650	0.0	-
19.7674	1700	0.0001	-

Framework Versions

Python: 3.10.12
SetFit: 1.1.0.dev0
Sentence Transformers: 3.1.1
Transformers: 4.46.1
PyTorch: 2.4.0+cu121
Datasets: 2.20.0
Tokenizers: 0.20.0

Citation

BibTeX

@article{https://doi.org/10.48550/arxiv.2209.11055,
    doi = {10.48550/ARXIV.2209.11055},
    url = {https://arxiv.org/abs/2209.11055},
    author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
    keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
    title = {Efficient Few-Shot Learning Without Prompts},
    publisher = {arXiv},
    year = {2022},
    copyright = {Creative Commons Attribution 4.0 International}
}

mini1013
/

master_cate_lh27