CPU 부하 분산, 토큰 처리량 최대 40% 늘리고 최초 토큰 생성 시간 61% 단축
[보안뉴스 조재호 기자] F5가 엔비디아 블루필드-3 DPU와 자사 쿠버네티스용 애플리케이션 보안 플랫폼을 결합한 지능형 인프라 계층을 16일 발표했다. CPU 부하를 분산시켜 GPU 활용도를 높이고, 토큰 처리량을 최대 40% 늘리며 응답 지연 시간을 단축했다.

이 솔루션은 F5 쿠버네티스 전용 플랫폼 ‘빅아이피 넥스트 포 쿠버네티스’(BIG-IP Next for Kubernetes)와 엔비디아 데이터 처리 장치 ‘블루필드-3 DPU’(BlueField-3 DPU)를 결합한 형태다. GPU 활용도를 높여 대규모 인프라 운영 환경에서 가시성(Telemetry)을 활용해 여러 사용자가 안전하게 리소스를 나눠 쓸 수 있는(Multi-tenancy) 지능형 인프라 계층을 제공한다.
최근 AI는 실제 수익을 창출하는 비즈니스로 진화하며, 하드웨어 구축을 넘어 토큰 경제의 효율성을 따지는 단계로 진입하고 있다. 이 때문에 지속적 토큰 처리량과 최초 토큰 생성 시간, 토큰당 비용 등이 핵심 성과 지표로 평가받는다.
이번 통합 솔루션은 이러한 지표 개선을 위해 설계됐다. 빅아이피 넥스트 포 쿠버네티스는 엔비디아의 마이크로서비스(NIM) 통계와 런타임 신호, GPU 상태정보 수집(Telemetry)를 활용해 지능형 라우팅을 진행한다. 워크로드를 가장 적합한 GPU에 배치해 자원 낭비와 지연 시간을 줄이는 방식이다.
톨리그룹(The Tolly Group)의 테스트 결과에 따르면, 블루필드-3 DPU로 가속된 플랫폼은 토큰 처리량이 최대 40% 늘고 최초 토큰 생성 시간은 61% 단축됐다. 응답 지연 시간도 34% 감소했다. AI 모델 변경 없이 이러한 성능 개선 효과를 기존 AI 시스템에 적용할 수 있다.
쿠날 아난드 F5 최고제품책임자(CPO)는 “AI 인프라는 더 이상 단순 확장이 아닌 GPU당 경제적 가치를 극대화 하는 방향으로 고도화되고 있다”며 “빅아이피 넥스트 포 쿠버네티스는 분석·제어 역량을 바탕르로 GPU 수율을 높이고 토큰당 비용을 낮춰 공유 AI 플랫폼을 안정적으로 확장하도록 지원한다”고 말했다.
[조재호 기자(zephyr@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>








.gif)
.gif)




