에스투더블유 LLM 토크나이저 취약성 규명 연구, ‘EMNLP 2025’ 논문 채택

2025-11-10 14:09
  • 카카오톡
  • 네이버 블로그
  • url
LLM 토크나이저 관련 논문 ‘EMNLP 2025’서 채택…세계 최고 권위 AI 학회 4년 연속 논문 등재
비영어 언어에서 환각 현상 두드러져…AI 신뢰성 및 소버린 AI 논의에 새 시사점 제시
“신뢰할 수 있는 AI 만들기 위한 선도적 연구 성과 지속 창출할 것”


[보안뉴스 여이레 기자] 빅데이터 분석 인공지능(AI) 기업 에스투더블유(S2W)는 10일 대규모언어모델(LLM) 토큰화 구조의 근본적 취약점을 규명한 S2W 및 한국과학기술원(KAIST) 공동연구팀 논문이 세계 최고 권위의 자연어처리(NLP) 학회 ‘자연어처리방법론학회(EMNLP) 2025’에 채택됐다고 밝혔다.


[자료: S2W]

EMNLP는 ‘전산언어학학회’(ACL) 및 ‘북미전산언어학학회’(NAACL)와 함께 자연어처리(NLP) 분야 세계 3대 학술대회 중 하나로 꼽힌다. 이번 채택을 통해 S2W는 글로벌 최고 권위 AI 학회에 4년 연속으로 논문을 등재했다.

앞서 S2W는 다크웹 언어 관련(2022년) 및 자체 개발 사이버보안 문서 특화 언어모델 ‘사이버튠’(CyBERTuned) 관련 논문(2024년)으로 NAACL에서 두 차례 논문을 발표한 바 있으며, 2023년에는 독자 개발한 세계 최초의 다크웹 도메인 특화 언어모델 ‘다크버트’ 관련 논문을 통해 ACL에 채택된 바 있다.

S2W 연구진이 발표한 ‘바이트 레벨 토크나이저 내 불완전 토큰의 취약점을 드러낸 비정상적 바이그램’(Improbable Bigrams Expose Vulnerabilities of Incomplete Tokens in Byte-Level Tokenizers) 논문은 LLM 내부의 처리 기능 중 하나로 문장 분석 과정에서 문자를 분절해 처리하는 도구인 ‘토크나이저’가 환각을 유발할 수 있다는 내용을 담았다. 특히, LLM이 비영어권 언어로 활용되는 경우 토크나이저가 일부 문자를 완전히 쪼개지 못해 해석되지 못한 채 ‘불완전 토큰’으로 남는 현상에 주목했다.

S2W는 토크나이저 설계로 발생한 환각 현상이 영어 이외의 언어에서 자주 나타난다는 점에서, 모델의 답변 품질이 영어권보다 비영어권에서 더욱 저하될 수 있다는 가능성을 제시했다.

영어는 한 글자가 1바이트(byte)로 구성되지만 한국어, 일본어, 중국어 등은 한 글자가 여러 바이트로 표현된다. 이 때문에 ‘바이트 페어 인코딩(BPE)’ 기반 토크나이저는 문자를 바이트 단위로 분해하는 과정에서 글자의 중간이 잘린 불완전 토큰을 생성하기 쉽다. 이러한 구조적 한계가 비영어권에서의 의미 복원 실패나 문맥 왜곡으로 이어져, 환각 발생률을 높이는 요인으로 작용할 수 있는 것이다.

논문의 공동저자로 참여한 박근태 S2W 최고기술책임자(CTO)는 “본 논문은 각국이 자국 언어와 데이터를 기반으로 AI를 개발·운영해야 하는 ‘소버린 AI’에 관한 논의에 유의미한 시사점을 제공한다”며 “토크나이저가 영어 외 언어를 안정적으로 처리하지 못한다면, 여러 국가의 자국 언어 기반 AI 모델을 신뢰성 있게 운영하기 어렵기 때문”이라고 설명했다.

이어 그는 “S2W는 신뢰할 수 있는 AI를 만들기 위한 가장 선도적인 연구 성과를 지속 창출할 계획”이라고 밝혔다.

[여이레 기자(gore@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

연관 뉴스

헤드라인 뉴스

TOP 뉴스

이전 스크랩하기


과월호 eBook List 정기구독 신청하기

    • 알티솔루션

    • 인콘

    • 엔텍디바이스

    • 핀텔

    • 아이비젼

    • 아이디스

    • 씨프로

    • 웹게이트

    • 지오멕스소프트

    • 하이크비전

    • 한화비전

    • ZKTeco

    • 비엔에스테크

    • 홍석

    • 원우이엔지

    • 지인테크

    • 진명아이앤씨

    • 이화트론

    • 다누시스

    • 테크스피어

    • 휴먼인텍

    • 슈프리마

    • 인텔리빅스

    • 시큐인포

    • 미래정보기술(주)

    • 한국씨텍

    • 비전정보통신

    • 유니뷰코리아

    • 경인씨엔에스

    • 트루엔

    • 성현시스템

    • 위트콘

    • 디멘션

    • 레이튼

    • 다후아테크놀로지코리아

    • 포엠아이텍

    • 지엠케이정보통신

    • 넥스트림

    • 세연테크

    • 스마트시티코리아

    • 파이오링크

    • 엑소스피어

    • 안랩

    • 스플래시탑

    • 펜타시큐리티

    • 모니터랩

    • 선유엔에스

    • 수산아이앤티

    • 소프트캠프

    • 퓨쳐시스템

    • 신우테크
      팬틸드 / 하우징

    • 에프에스네트워크

    • 네이즈

    • 케이제이테크

    • 셀링스시스템

    • 혜성테크원

    • 아이엔아이

    • 미래시그널

    • 원투스시스템

    • 케비스전자

    • 엣지디엑스

    • 새눈

    • 주식회사 에스카

    • 솔디아

    • 일산정밀

    • 인빅

    • 에이앤티글로벌

    • 미래시그널

    • 네티마시스템

    • 인더스비젼

    • 구네보코리아

    • 현대틸스
      팬틸트 / 카메라

    • 알씨

    • 넥스텝

    • 에이앤티코리아

    • 엔에스티정보통신

    • 태양테크

    • 엘림광통신

    • 엔시드

    • 이엘피케이뉴

    • 메트로게이트
      시큐리티 게이트

    • 레이어스

    • 와이즈콘

    • 포커스에이아이

    • 티에스아이솔루션

    • 엠스톤

    • 글로넥스

    • 유진시스템코리아

    • 카티스

    • 세환엠에스(주)

Copyright thebn Co., Ltd. All Rights Reserved.

시큐리티월드

IP NEWS

회원가입

Passwordless 설정

PC버전

닫기