비싼 데이터센터 GPU 의존 줄였다... KAIST, LLM 서빙 ‘스펙엣지’ 공개

2025-12-28 12:00
  • 카카오톡
  • 네이버 블로그
  • url
추측적 디코딩 적용...비용 효율 1.91배·서버 처리량 2.22배 향상
소비자급 GPU 활용해 데이터센터 자원 ‘검증 중심’ 운용


[보안뉴스 여이레 기자] 대규모언어모델(LLM) 기반 AI 서비스가 고가의 데이터센터 GPU에 과도하게 의존하면서 운영비 부담과 진입장벽이 커지고 있다. KAIST 연구진이 데이터센터 밖의 저렴한 소비자급 GPU까지 활용해 LLM 추론 비용을 낮추는 기술을 제시했다.


[자료: KAIST]

KAIST는 전기및전자공학부 한동수 교수 연구팀이 데이터센터 GPU 사용량을 줄이고, 개인 PC나 소형 서버 등에 탑재된 엣지 GPU를 함께 활용하는 LLM 서빙 프레임워크 ‘스펙엣지’(SpecEdge)를 개발했다고 28일 밝혔다.

스펙엣지는 데이터센터의 대규모 언어모델과 엣지 GPU에 배치된 소형 언어모델이 역할을 분담해 추론을 수행한다. 엣지 GPU가 먼저 확률이 높은 토큰 시퀀스(단어 또는 단어 일부의 연속)를 빠르게 생성하면, 데이터센터 LLM이 이를 일괄 검증하는 방식이다.

연구팀은 이 과정에 ‘추측적 디코딩’(Speculative Decoding)을 적용, 엣지 GPU가 서버 응답을 기다리지 않고 다음 후보 토큰을 계속 생성하도록 설계했다.

기술 검증 결과, 스펙엣지를 적용하면 데이터센터 GPU만으로 추론하는 기존 방식 대비 토큰당 비용을 약 67.6% 절감할 수 있었다.

또 데이터센터 GPU에서만 추측적 디코딩을 수행하는 방식과 비교해 비용 효율성은 1.91배, 서버 처리량은 2.22배 향상된 것으로 나타났다.

일반적 인터넷 환경에서도 원활히 작동, 특수 네트워크 구성 없이 서비스에 적용할 수 있는 가능성을 확인했다고 연구팀은 설명했다.


[자료: KAIST]

서버 측은 여러 엣지 GPU에서 들어오는 검증 요청을 효율적으로 처리하도록 구성해 GPU 유휴 시간을 줄이고 동시 처리량을 높였다. 이를 통해 데이터센터 자원을 ‘검증 중심’으로 활용하면서, 전체 LLM 서빙 인프라의 비용 대비 성능을 끌어올리는 구조를 구현했다.

한동수 KAIST 교수는 “데이터센터를 넘어 사용자 주변의 엣지 자원까지 LLM 인프라로 활용하는 것이 목표”라며 “AI 서비스 제공 비용을 낮춰 누구나 고품질 AI를 활용할 수 있는 환경을 만들고자 한다”고 말했다. 연구에는 KAIST 박진우 박사와 조승근 석사과정이 참여했다.

이 연구 결과는 12월 2일부터 7일까지 미국 샌디에이고에서 열린 신경정보처리시스템 학회(NeurIPS)에서 스포트라이트(상위 3.2%)로 발표됐다. 논문명은 ‘SpecEdge: Scalable Edge-Assisted Serving Framework for Interactive LLMs’이다.

이 연구는 정보통신기획평가원(IITP) ‘AI-Native 응용 서비스 지원 6G 시스템 기술개발’ 과제 지원을 받아 수행됐다.

[여이레 기자(gore@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

연관 뉴스

헤드라인 뉴스

TOP 뉴스

이전 스크랩하기


과월호 eBook List 정기구독 신청하기

    • 아마노코리아

    • 인콘

    • 엔텍디바이스

    • 이노뎁

    • 아이비젼

    • 아이디스

    • 인피닉

    • 웹게이트

    • 판빌코리아

    • 하이크비전

    • 한화비전

    • ZKTeco

    • 비엔에스테크

    • 엔토스정보통신

    • 원우이엔지

    • 지인테크

    • 에스엠시스템즈

    • 이화트론

    • 에스비젼

    • 테크스피어

    • 휴먼인텍

    • 슈프리마

    • 홍석

    • 시큐인포

    • 미래정보기술(주)

    • 티비티

    • 지오멕스소프트

    • 프로브디지털

    • 경인씨엔에스

    • 동양유니텍

    • 성현시스템

    • 렉스젠

    • 케비스전자

    • 다후아코리아

    • 위트콘

    • 제이더블유씨네트웍스

    • 한국표준보안

    • 씨엠아이텍

    • 지엠케이정보통신

    • 파인트리커뮤니케이션

    • 구네보코리아

    • 진명아이앤씨

    • 포엠아이텍

    • 트루엔

    • 세연테크

    • 티에스아이솔루션

    • 넥스트림

    • 엑시스커뮤니케이션

    • 디알에스

    • 시큐와우

    • 펜타시큐리티

    • 지란지교데이터

    • 위즈코리아

    • 삼오씨엔에스

    • 에버스핀

    • 에이씨엔에스

    • 펜타시스템

    • 엘세븐시큐리티

    • 이레산업

    • 에프에스네트워크

    • 제네텍

    • 케이제이테크

    • 알에프코리아

    • 로드맵

    • 세이프네트워크

    • 네티마시스템

    • 아이엔아이

    • 뷰런테크놀로

    • 인더스비젼

    • 혜성테크원

    • 주식회사 에스카

    • 솔디아

    • 일산정밀

    • 크랜베리

    • 새눈

    • 누리콘

    • 이스트컨트롤

    • 현대틸스
      팬틸트 / 카메라

    • 모스타

    • 태양테크

    • 엘림광통신

    • 아이에스앤로드테크

    • 동곡기정

    • 메트로게이트
      시큐리티 게이트

    • 글로넥스

    • 신화시스템

    • 세환엠에스(주)

    • 유진시스템코리아

    • 유니온바이오메트릭스

Copyright thebn Co., Ltd. All Rights Reserved.

시큐리티월드

회원가입

Passwordless 설정

PC버전

닫기