AI 컴퓨팅 기술 분야의 선두주자인 엔비디아(CEO 젠슨 황)는 현재 최대 엔비디아 DGX A100 고객 시스템인 메타(Meta)의 AI 슈퍼컴퓨터를 통해 메타 AI 연구원에게 5 엑사플롭스(exaflops)급 AI 성능을 제공할 것이라고 밝혔다. 메타의 AI 슈퍼컴퓨터는 최첨단 엔비디아 시스템, 인피니밴드(InfiniBand) 패브릭 및 소프트웨어를 통해 수천 개의 GPU에서 최적화가 가능하다.

메타 플랫폼스(Meta Platforms)는 지금까지의 연구 시스템 중 가장 강력할 것이라고 믿고 있는 시스템을 위해 엔비디아의 기술을 선택하며 엔비디아에 큰 신뢰를 보였다.

AI 리서치 슈퍼클러스터(RSC)는 이미 AI를 발전시키기 위한 새로운 모델을 훈련시키고 있다.

메타의 RSC가 완전히 구축되면 엔비디아 DGX A100 시스템의 최대 고객 설치가 될 것으로 예상된다.

메타는 블로그를 통해 “RSC가 서로 다른 언어를 사용하는 대규모 집단에게 실시간 음성 통역을 지원해 연구 프로젝트 협력을 원활히 하거나 AR 게임을 함께 할 수 있도록 하는 완전히 새로운 AI 시스템을 구축하는 데 도움이 되기를 바란다”고 밝혔다.

메타는 RSC가 완전히 구축되면 올해 말 이를 활용해 매개 변수가 1조 개가 넘는 AI 모델을 훈련하는 것을 목표로 하고 있다. 이는 실시간으로 유해한 내용을 파악하는 것과 같은 작업에 대한 자연어 처리와 같은 분야를 발전시킬 수 있다.

메타는 대규모 성능 외에도 RSC의 핵심 기준으로 높은 신뢰성, 보안성, 프라이버시, 그리고 ‘광범위한 AI 모델’을 다룰 수 있는 유연성을 꼽았다.

신형 AI 슈퍼컴퓨터는 현재 760개의 엔비디아 DGX A100 시스템을 컴퓨팅 노드로 사용하고 있다. 엔비디아 퀀텀(Quantum) 200Gb/s 인피니밴드 네트워크에 연결된 총 6,080개의 엔비디아 A100 GPU를 패키징해 1,895 페타플롭스(petaflops)급 TF32 성능을 제공한다.

코로나19로 인한 어려움에도 불구하고, RSC는 메타 RSC의 기초에 깔린 엔비디아 DGX A100 기술 덕분에 18개월 만에 서류상 아이디어를 작동하는 AI 슈퍼컴퓨터로 만들어낼 수 있었다.

메타가 연구 인프라 기반으로 엔비디아 기술을 선택한 것은 이번이 두 번째다. 메타는 2017년 하루 3만5000개의 AI 훈련 작업을 처리하는 엔비디아 V100 텐서 코어 GPU 2만2000개로 AI 연구용 1세대 인프라를 구축한 바 있다.

메타의 초기 벤치마크는 RSC가 이전 시스템보다 대형 NLP 모델을 3배 더 빠르게 훈련하고 컴퓨터 비전 작업을 20배 더 빠르게 실행할 수 있음을 보여준다.

올해 말 두 번째 단계에서 RSC는 메타가 5 엑사플롭스(exaflops)급의 엄청난 양의 혼합 정밀 AI 성능을 제공할 것으로 보고 있는 1만 6천개의 GPU로 확대할 예정이다. 또한 메타는 RSC의 스토리지 시스템을 확장해 초당 16 테라바이트의 속도로 최대 1엑사바이트의 데이터를 제공하는 것을 목표로 하고 있다.




추천기사

답글 남기기