호라이즌·솔스티스 등 차세대 AI 슈퍼컴퓨터, 질병 연구부터 우주 모델링까지 과학 혁신 가속
AI 컴퓨팅 기술 기업 엔비디아(NVIDIA)가 16일부터 21일까지(현지시간) 미국 세인트루이스에서 개최되는 '슈퍼컴퓨팅 2025(Supercomputing 2025, SC25)' 콘퍼런스에서 지난 1년간 엔비디아 가속 컴퓨팅 플랫폼으로 구동되는 80개 이상의 새로운 과학 시스템이 전 세계에 공개됐으며, 총 4천500 엑사플롭스의 AI 성능에 기여했다고 발표했다.
그 중 가장 최근 선보인 것은 미국 최대 규모의 학술용 슈퍼컴퓨터인 텍사스 첨단 컴퓨팅 센터(Texas Advanced Computing Center, TACC)의 300 페타플롭스급 호라이즌(Horizon) 시스템이다.
호라이즌은 엔비디아 GB200 NVL4와 엔비디아 베라(Vera) CPU 서버로 구동되며, 엔비디아 퀀텀-X800 인피니밴드(Quantum-X800 InfiniBand) 네트워킹으로 상호 연결될 예정이다. 호라이즌은 2026년 가동 시 과학, 공학 분야의 획기적인 발전을 가속화할 것으로 기대되고 있다. 이 시스템은 미국 연구 커뮤니티에 발견과 혁신을 위한 전례 없는 컴퓨팅 역량을 제공할 전망이다.
이 시스템은 엔비디아 가속 슈퍼컴퓨터의 최신 사례로, 의료, 기상, 기후 모델링, 로보틱스, 제조, 양자 컴퓨팅 연구, 재료 과학 등 다양한 분야에서 국가와 민간 기업의 글로벌 연구를 촉진한다.
엔비디아의 풀스택 가속 컴퓨팅 플랫폼은 GPU, CPU, DPU, NIC, 스케일아웃 스위치, 쿠다-X(CUDA-X) 라이브러리, 엔비디아 AI 엔터프라이즈(AI Enterprise) 소프트웨어를 포괄한다. 이로써 시스템이 과학을 지속 가능하고 전례 없는 속도로 발전시키는 데 필요한 통합 아키텍처, 확장성, 효율성을 제공한다.
4천개의 엔비디아 블랙웰(Blackwell) GPU를 탑재한 호라이즌 슈퍼컴퓨터는 FP4 정밀도에서 최대 80 엑사플롭의 AI 컴퓨팅 성능을 지원한다. 이 시스템은 아래와 같은 특정 과학적 모델링과 시뮬레이션 애플리케이션을 지원하도록 설계됐다.
TACC의 고성능 컴퓨팅 디렉터인 존 케이즈(John Cazes)는 "호라이즌은 우리 과학자들이 전례 없는 규모로 야심찬 과학 연구를 수행할 수 있게 할 것이다"라며 "이 새로운 시스템은 연구 커뮤니티가 바이러스 감염의 분자 역학을 해독하고, 먼 은하계의 데이터를 탐구하며, 수십 년 후의 지진 활동을 시뮬레이션하는 등 AI 기반 연구를 추진하는 방식을 혁신할 것"이라고 말했다.
더불어 미국 에너지부(Department of Energy, DOE)는 최근 일리노이주 아르곤 국립연구소(Argonne National Laboratory, ANL)와 뉴멕시코주 로스앨러모스 국립연구소(Los Alamos National Laboratory, LANL)에 7대의 신규 AI 슈퍼컴퓨터를 구축하기 위해 엔비디아와 협력 관계를 체결했다고 발표했다.
ANL에서는 엔비디아 블랙웰 GPU와 엔비디아 네트워킹을 탑재한 두 대의 AI 슈퍼컴퓨팅 시스템을 DOE의 과학 기기·데이터 자산 네트워크와 연결할 예정이다. 이로써 연구진이 과학과 에너지 응용 분야를 위한 강력한 AI 모델을 개발할 수 있도록 지원한다.
연구소 단지 내 최대 규모 시스템인 솔스티스(Solstice)는 10만 개의 엔비디아 블랙웰 GPU를 탑재할 예정이다. 엔비디아 GB200 NVL72 시스템을 탑재한 솔스티스는 훈련 시 무려 1천 엑사플롭스에 달하는 AI 훈련 컴퓨팅 성능을 낼 수 있다. 이는 2025년 6월 기준 TOP500 전체 목록의 AI 훈련 컴퓨팅 성능 합계인 약 650 엑사플롭스보다 50% 이상 높은 수치다.
또 다른 ANL 시스템인 '이퀴녹스(Equinox)'는 1만 개의 엔비디아 블랙웰 GPU로 구동될 예정이다. 연구소의 엔비디아 가속 시스템인 '미네르바(Minerva)', '야누스(Janus)', '타라(Tara)'는 AI 추론과 인력 개발을 지원할 예정이다.
한편, 소버린 AI 투자와 민간 부문 이니셔티브를 통해, 엔비디아 가속 AI 인프라는 한국, 일본, 대만의 과학 연구를 지원하고 있다.
한국 정부는 소버린 클라우드와 AI 팩토리에 5만 대 이상의 엔비디아 GPU를 배치할 계획이다. 삼성(Samsung), SK그룹(SK Group), 현대자동차그룹(Hyundai Motor Group) 등 업계 선도 기업들도 엔비디아 블랙웰 GPU를 활용한 AI 팩토리를 구축해 연구와 생산 가속화를 추진 중이다.
일본 최고 연구 기관인 리켄(RIKEN, 이화학연구소)은 SC25에서 과학 연구용 AI를 위한 1천600-GPU급 시스템과 양자 컴퓨팅을 위한 540-GPU급 시스템에 중점을 둔 두 대의 신규 슈퍼컴퓨터에 엔비디아 GB200 NVL4 시스템을 통합한다고 발표했다.
리켄은 일본에서 구축 중인 두 개의 신규 슈퍼컴퓨터에 엔비디아 블랙웰을 도입 중이다. 하나는 과학 연구용 AI, 다른 하나는 양자컴퓨팅을 위해 설계된 시스템이다.
리켄은 후지쯔(Fujitsu), 엔비디아와 협력해 글로벌 시스템 모델링, 신약 개발 연구, 첨단 제조 애플리케이션을 구동할 슈퍼컴퓨터 '후가쿠NEXT(FugakuNEXT, 개발 코드명)'를 공동 설계 중이다. 이 시스템은 NV링크 퓨전(NVLink Fusion)을 통해 엔비디아 기술과 연동 가능한 후지쯔 모나카-X(FUJITSU-MONAKA-X) CPU를 탑재할 예정이다.
대만에서는 엔비디아가 폭스콘 혼하이 테크놀로지(Foxconn Hon Hai Technology) 그룹과 협력해 1만 개의 엔비디아 블랙웰 GPU를 탑재한 AI 팩토리 슈퍼컴퓨터를 구축 중이다. 이 슈퍼컴퓨터는 연구자, 스타트업, 산업 전반에 걸친 혁신을 촉진할 예정이다. [파이낸셜신문=황병우 기자]

