전산 다중물리(Computational Multi-Physics) 애플리케이션의 30배 속도 목표
[보안뉴스 기획취재팀] 인공지능(AI) 컴퓨팅 기술 분야의 선두주자인 엔비디아(CEO 젠슨 황)는 아시아, 유럽, 미국 등의 슈퍼컴퓨팅 센터가 엔비디아 퀀텀 인피니밴드(NVIDIA Quantum InfiniBand) 네트워크에서 엔비디아 블루필드(BlueField) DPU를 통해 가속 컴퓨팅을 한 단계 끌어올린다고 발표했다.

[이미지=엔비디아 제공]
미국 로스 알라모스 국립연구소(Los Alamos National Laboratory, LANL)에서 NVIDIA와의 다년간 광범위한 협업의 한 부분으로, 전산 다중물리(Computational Multi-Physics) 애플리케이션의 30배 속도를 목표로 한다.
.
LANL 연구원들은 엔비디아 퀀텀 인피니밴드(NVIDIA Quantum InfiniBand) 네트워크에서 실행되는 데이터 처리 장치(DPU)를 사용하여 엄청난 성능 향상을 예상하고 있다. 이들은 BlueField 및 NVIDIA DOCA 소프트웨어 프레임워크를 사용한 컴퓨팅 스토리지, 패턴 매칭 등의 기술을 개척한다는 계획이다.
DPU를 위한 오픈 API
이러한 노력을 통해 누구나 DPU를 활용하는 데 사용할 수 있는 애플리케이션 인터페이스인 OpenSNAPI를 정의할 수 있다. 이는 유니파이드 커뮤니케이션 프레임워크(Unified Communication Framework)의 프로젝트이다. 유니파이드 커뮤니케이션 프레임워크는 Arm, IBM, 엔비디아, 미국 국립 연구소(U.S. national labs) 및 미국 대학들을 포함한 HPC 애플리케이션을 위한 이기종 컴퓨팅(heterogeneous computing)을 가능하게 하는 컨소시엄이다.
LANL는 DPU 기반 스토리지 시스템 덕분에 이미 인네트워크(in-network) 컴퓨팅의 힘을 느끼고 있다.
엑셀러레이티드 박스 오브 플래시(Accelerated Box of Flash, ABoF)는 솔리드 스테이트(solid state) 스토리지, DPU, 인피니밴드 가속기를 결합하여 리눅스(Linux) 파일 시스템의 성능에 중요한 부분을 가속화하는데 도움을 준다. 유사한 스토리지 시스템보다 최대 30배 더욱 빠르며, LANL 인프라의 핵심 구성 요소가 될 예정이다.
최근 LANL 블로그를 통해 한 연구원은 ‘ABoF를 스토리지 근처에 컴퓨테이션을 배치하면 데이터 이동이 최소화되고 시뮬레이션과 데이터 분석 파이프라인의 효율성이 향상된다’고 전했다.
클라우드 네이티브 슈퍼(Cloud-Native Super)
미국 텍사스 첨단 컴퓨팅 센터(Texas Advanced Computing Center, TACC)는 델 파워엣지(Dell PowerEdge) 서버에 블루필드-2를 최근에 채택했다. 이는 인피니밴드 네트워크의 DPU를 사용하여 론스타6(Lonestar) 시스템을 클라우드 네이티브 슈퍼컴퓨팅을 위한 개발 플랫폼으로 만들 예정이다.
TACC의 론스타 6는 텍사스 A&M 대학교, 텍사스 공과 대학교(Texas Tech University) 및 노스 텍사스 대학교(University of North Texas)의 다양한 HPC 개발자들과 수많은 연구센터와 교수진을 제공한다.
MPI 가속화
미국 오하이오 주립 대학(Ohio State University)의 연구원들은 DPU가 어떻게 HPC의 가장 인기 있는 프로그래밍 모델 중 하나를 최대 21% 더 빠르게 실행할 수 있는지를 보여줬다. 메시지 전달 인터페이스(MPI)의 중요 부분을 오프로드하여, 많은 대규모 HPC 시뮬레이션에 사용되는 라이브러리인 P3DFFT를 가속화했다.
자신의 팀의 MVPICH 오픈소스 소프트웨어를 사용하여 DPU 작업을 이끈 오하이오 주립 대학의 컴퓨터공학 교수인 다발레스워 K. (DK) 팬더(Dhabaleswar K. (DK) Panda)는 “DPU는 바쁜 경영진의 업무를 처리하는 조수와 같으며, 모든 워크로드를 더 빠르게 실행할 수 있기 때문에 주류가 될 것”이라고 말했다.
HPC 센터, 클라우드 내 DPU
약물 발견이나 항공기 설계와 같은 HPC 시뮬레이션을 실행하는 슈퍼컴퓨터의 경우 두 자릿수 상승 효과가 크게 작동한다. 그리고 여러 HPC 센터로부터 코드 요청을 받은 팬더는 “클라우드 서비스는 고객의 생산성을 높이기 위해 이러한 이점을 활용할 수 있다”고 말했다.
엔비디아 샤프(SHARP)와 같은 기능을 가진 퀀텀 인피니밴드 네트워크는 그의 작업을 가능하게 한다. 팬더는 “다른 사람들은 인네트워크(in-network) 컴퓨팅에 대해 이야기하지만, 인피니밴드는 오늘날 이것을 도운다”고 말했다.
로드 밸런싱(Load Balancing)을 수행하는 더럼 대학
유럽의 여러 연구팀이 블루필드DPU를 사용해 MPI 및 기타 HPC 워크로드를 가속화하고 있다. 예를 들면 영국 북부의 더럼 대학(Durham University)은 16노드의 델 파워엣지 클러스터에서 블루필드 DPU를 사용하여 MPI 작업의 로드 밸런싱을 위한 소프트웨어를 개발하고 있다. 이 프로젝트의 수석 조사원인 토비아스 바인치를(Tobias Weinzierl)은 “이번 작업은 전 세계의 HPC 시설을 위해 더 나은 알고리즘을 보다 효율적으로 처리할 수 있는 길을 열어줄 것”이라고 말했다.
뭔헨 및 케임브리지의 DPU
케임브리지, 런던 및 뮌헨의 연구원들도 DPU를 사용하고 있다. 유니버시티 칼리지 런던(University College London)은 블루필드-2 DPU에서 호스트 시스템의 작업을 예약하는 방법을 연구하고 있다. 예를 들면 호스트 프로세서 간에 데이터를 이동하여 필요할 때 사용할 수 있는 기능이다.
CSD3(Cambridge Service for Data Driven Discovery)의 델 파워엣지 서버 내부의 블루필드 DPU는 호스트 CPU에서 보안 정책, 스토리지 프레임워크 및 기타 작업을 오프로드하여 시스템 성능을 극대화한다.
뮌헨 공과대학(Technical University of Munich)의 컴퓨터 아키텍처 및 병렬 시스템 그룹의 연구원들은 EuroHPC 프로젝트의 일부로 DPU를 사용해 MPI 및 운영 체제 작업을 오프로드하는 방법을 모색하고 있다.
미국 조지아텍(Georgia Tech)의 연구원들은 블루필드-2 DPU를 사용하여 분자 역학 연구를 가속화하기 위해 샌디아 국립연구소(Sandia National Laboratory)와 협력하고 있다. 지금까지의 이들의 연구를 설명하는 논문은 알고리즘이 시뮬레이션의 정확성을 잃지 않고 최대 20%까지 가속될 수 있다는 것을 보여준다.
네트워크 확장
이달 초 일본의 연구원들은 엔비디아 퀌텀-2 인피니밴드 플랫폼을 기반으로 당사의 가장 빠르고 스마트한 네트워크인 엔비디아 H100 텐서 코어(Tensor Core) GPU를 사용하는 시스템을 발표했다.
NEC는 쓰쿠바 대학(University of Tsukuba)의 컴퓨터 과학 센터를 위해 약 6 페타플롭, H100 기반 슈퍼컴퓨터를 구축할 예정이다. 연구원들은 이를 기후학, 천체물리학, 빅데이터 및 AI 등에 사용할 계획이다. 한편, 팬더와 같은 연구원들은 이미 블루필드-3 DPU의 코어를 어떻게 사용할지에 대해 생각하고 있다.
팬더는 “이는 고등학교 졸업을 한 조교가 아니라 대학 학위를 가진 조교를 고용하는 것과 같아서, 점점 더 많은 오프로딩 작업이 이루어지기를 바란다”고 말했다.
[기획취재팀(boan3@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>