허깅페이스에 업로드, 이용자 2가지 유해표현 검출 모델 사용 가능
[보안뉴스 김경애 기자] TTA가 LLM 학습용 데이터에서 유해표현을 검출하는 인공지능(AI)모델을 공개했다.
▲허깅페이스 내 유해표현 검출 AI모델 및 데이터 업로드 현황 [이미지=한국정보통신기술협회]
한국정보통신기술협회(TTA·회장 손승현)는 3일 LLM 학습용 데이터에 대해 유해표현 검출 AI모델을 구축했다고 밝혔다. 이는 한국지능정보사회진흥원(NIA·원장 황종성)의 ‘24년 초거대AI 학습용 데이터 품질검증 사업’ 일환이다.
유해표현 검출 AI모델은 말뭉치 내 문장의 유해표현 여부를 판단, 유해표현을 카테고리로 분류해 말뭉치 유해성을 검출한다.
유해 카테고리 설정은 국가인권위원회의 혐오표현 정의 ‘혐오표현대항 안내서’(Hate Speech Counter Guide)를 참고했다. 유해표현 유형은 △명예훼손 △차별적 성격 △폭력적 성격 등 총 3개다. 하위 카테고리는 모욕과 욕설, 외설 등 모두 11개 유해표현으로 분류됐다.
▲혐오 3가지 유형별 유해표현 카테고리 11가지[자료=한국정보통신기술협회]
이들 유해표현 데이터는 한국어 혐오표현 오픈소스 데이터인 ‘케이엠에이치에이에스’(K-MHas) 데이터와 셀렉트스타의 혐오표현 분류(탐지) 데이터셋을 활용했다. 유해표현 각 카테고리에 대한 핵심 표현 빈도를 분석, 카테고리 정의를 재정립했다. 그런 다음 데이터를 재라벨링해 카테고리별 데이터 균형을 맞췄다.
유해표현 검출 AI모델과 학습용 데이터는 오픈소스 라이브러리·AI 모델 배포 플랫폼인 허깅페이스에 업로드 했다. 허깅페이스 API를 활용하면 모델을 통해 말뭉치 텍스트 유해성을 분석, 유해표현을 정제할 수 있다.
사용자는 유해표현 검출 AI모델 2가지 버전을 이용할 수 있다. 바로 ‘케이씨일렉트라 파인튜닝’(KcELECTRA Fine-Tuning) 버전과 ‘코버트 파인튜닝’(KoBERT Fine-Tuning) 버전이다. 또한 사용자는 모델·데이터 카드를 통해 세부 정보·테스트 결과를 확인, 목적에 맞게 모델을 선택·활용하면 된다.
손승현 TTA 회장은 “AI모델은 배운 대로 텍스트를 생성하기 때문에, 학습용 텍스트에 포함된 유해표현 정제 과정이 필요하다”며 “이번 오픈소스로 공개한 유해표현 검출 AI 모델을 통해 안전하고 신뢰할 수 있는 AI사용 기반이 정착될 것으로 기대한다”고 말했다.
[김경애 기자(boan3@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>