--- license: apache-2.0 language: - ko base_model: - monologg/koelectra-small-v3-discriminator library_name: transformers --- # KoELECTRA-small-v3-privacy-ner This model is a fine-tuned version of [monologg/koelectra-small-v3-discriminator](https://huggingface.co/monologg/koelectra-small-v3-discriminator) on a synthesized privacy dataset. It achieves the following results on the evaluation set: - f1 = 0.9998728608843798 - loss = 0.05310981854414328 - precision = 0.9999237126509853 - recall = 0.9998220142897098 ## Model description 태깅 시스템 : BIO 시스템 - -B(begin) : 개체명이 시작할 때 - -I(inside) : 토큰이 개체명 중간에 있을 때 - O(outside) : 토큰이 개체명이 아닐 경우 12가지 한국인 개인정보 패턴에 대한 태그셋 | 분류 | 표기 | 정의 | |:------------:|:---:|:-----------| | PERSON | PER | 한국인 이름 | | LOCATION | LOC | 한국 주소 | | RESIDENT REGISTRATION NUMBER | RRN | 한국인 주민등록번호 | | EMAIL | EMA | 이메일 | | ID | ID | 일반 로그인 ID | | PASSWORD | PWD | 일반 로그인 비밀번호 | | ORGANIZATION | ORG | 소속 기관 | | PHONE NUMBER | PHN | 전화번호 | | CARD NUMBER | CRD | 카드번호 | | ACCOUNT NUMBER | ACC | 계좌번호 | | PASSPORT NUMBER | PSP | 여권번호 | | DRIVER'S LICENSE NUMBER | DLN | 운전면허번호 | ### How to use You can use this model with Transformers *pipeline* for NER. ```python from transformers import AutoTokenizer, AutoModelForTokenClassification from transformers import pipeline tokenizer = AutoTokenizer.from_pretrained("amoeba04/test1") model = AutoModelForTokenClassification.from_pretrained("amoeba04/test1") ner = pipeline("ner", model=model, tokenizer=tokenizer) example = "지난주, 홍길동 씨는 서울특별시 강남구에 위치한 테헤란로 101빌딩에서 진행된 IT 컨퍼런스에 참석했습니다." ner_results = ner(example) print(ner_results) ``` 출력: "PER-B, PER-B 씨는 LOC-BLOC-ILOC-I LOC-ILOC-I LOC-ILOC-I LOC-ILOC-I LOC-ILOC-ILOC-I에서 진행된 IT 컨퍼런스에 참석했습니다." ## Training and evaluation data 자체 제작한 한국인 개인정보 패턴 기반 개체명 인식 (NER) 데이터셋 ### Training hyperparameters The following hyperparameters were used during training: - learning_rate: 5e-05 - train_batch_size: 512 - eval_batch_size: 1024 - seed: 42 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08 - lr_scheduler_type: linear - num_epochs: 1 - mixed_precision_training: Native AMP ### Framework versions - Transformers 4.40.0 - Pytorch 2.2.1+cu118 - Datasets 2.19.0 - Tokenizers 0.19.1