장애 혐오 데이터 관련 문의

#1
by wol2001 - opened

안녕하세요? 모델 제공에 감사드립니다.
장애 혐오 detection 모델에 사용된 데이터 셋에 대해 문의 드립니다.
장애 혐오의 범주가 어떻게 되는지 알고 싶습니다. 질병 관련도 포함되어 있는지 또한, 어떤 종류의 데이터를 장애 혐오 발언으로 라벨링하여
사용하셨는지요?
제공해주신 학습 모델로 분류를 해봤습니다. 분류 결과 중에 장애와는 거리가 먼 텍스트도 장애로 분류가 되어서요..
예를 들면 정치관련된 내용 중 일부 단어중 "병자 같은~~" 표현이 있는 경우 입니다.

감사합니다.

확인이 늦었습니다, 죄송합니다!

데이터셋 라벨링 시 적용한 대강의 코딩룰은 아래와 같습니다.

  1. 상대가 장애인이 아니어도, 그 사람을 신체/정신적 장애인 혹은 그 속성에 빗대어 상대를 비방하는 표현
    e.g., “한녀는 장애랑 동급이니까 ㅋㅋ"

  2. 장애인의 속성을 가리켜 그것을 비방 또는 비하한 표현
    e.g., “이 XX 눈병신 됐으면"

  3. 장애인에 대한 부정적 편견 표현 및 선동
    e.g., “장애인들 존나 이기적임”

  4. 장애인에 대한 직접적 조롱, 비방 등

데이터셋 수집 시, 질병 관련 내용을 타겟팅해서 수집하지는 않았습니다만,
말씀해주신 사례는 2)의 경우에 가까운, 즉 '병신'과 같은 용례로 분류가 된 것이 아닌가 싶습니다.

이 모델은 현재 계속 작업 중에 있습니다.
제보해주신 것과 같은 사례도 보다 정확히 분류할 수 있도록 데이터셋 추가를 통해 파인튜닝 작업을 계속할 계획입니다.

관심 감사드립니다!

NeinYeop changed discussion status to closed
NeinYeop changed discussion status to open

Sign up or log in to comment