AI 자유 카페- 슈퍼컴퓨터로 보는 AI 트렌드
슈퍼컴퓨터는 컴퓨터의 본질적인 기능인 빠른 계산에 특화된 기계장치다. 컴퓨터의 계산 성능과 발전 방향을 파악할 수 있는 가늠자로 활용되고 있다. 슈퍼컴퓨터는 18개월 마다 연산처리장치의 성능이 두 배 향상된다는 무어의 법칙 아래 지속적으로 발전해 왔다. 그러나 최근 10년 사이 트랜지스터 생산 공정의 물리적인 한계로 인해 이제는 더 이상 무어의 법칙이 통용되지 않는 상황에 직면했다. 그럼에도 슈퍼컴퓨터의 성능 향상은 지금까지 무어의 법칙보다 더 빠른 13개월 정도에 성능이 두 배가 되는 초성장을 기록했다.

그래픽연산처리장치(GPU)의 부상과 AI
무어의 법칙이 더 이상 유효하지 않은 상황에서 슈퍼컴퓨터 업계가 주목한 것은 계산을 전용으로 담당하는 가속기이다. 2008년 대표적인 가속기로 부상한 그래픽연산처리장치(GPU)는 가격 대비 높은 연산 능력을 바탕으로 슈퍼컴퓨터의 새로운 시대를 열었다. 그러나 이후 GPU는 구조적 특성으로 기인한 좁은 활용 가능성으로 인해 특정 분야에서 명맥을 이어가 슈퍼컴퓨터의 주류에는 다소 거리가 멀어졌다. 이러한 상황에서 부상한 AI는 GPU의 가능성을 새롭게 조명하는 계기가 되었다.
현대 AI의 붐을 이끈 딥러닝은 2012년 이미지에서 물체를 인식하는 경진대회에서부터 출발한다. 당시 가장 좋은 예측 성능을 달성한 토론토대학의 제프리 힌튼 교수 연구진은 알렉스넷(AlexNet)으로 명명된 합성곱신경망에 GPU를 활용했다. 이 사건을 계기로 딥러닝이라는 분야가 GPU를 십분 활용할 수 있는 것으로 판명되자, 딥러닝과 GPU는 서로 뗄 수 없는 관계를 맺게 된다. 이후 2016년 알파고, 2017년 트랜스포머, 2018년 BERT, 2019년 알파스타, 2020년 GPT-3 등 AI 학계를 뒤흔든 혁신적인 성과 아래에는 모두 GPU 컴퓨팅 인프라가 존재했다. 특히 2020년 OpenAI가 개발한 GPT-3는 마이크로소프트가 제공하는 GPU 1만 장 규모의 AI 슈퍼컴퓨터를 활용한 결과로도 주목받았다.

NVIDIA가 독점하는 GPU 시장의 변화
이제 GPU는 AI의 성공으로 인해 슈퍼컴퓨터에서 주류를 이루고 있다. 매년 6월과 11월에 전 세계 슈퍼컴퓨터 성능 순위를 공개하는 TOP500 순위에는 2020년 11월 기준 10권 이내의 슈퍼컴퓨터 중 7개가 GPU를 탑재하고 있으며, 그 활용영역으로 모두 AI를 명시하고 있다.
현재 슈퍼컴퓨터의 가장 큰 화두인 엑사스케일(초당 100경 연산) 역시 AI와 GPU가 키워드이다. 엑사스케일은 지난 5년간 슈퍼컴퓨터 분야에서 가장 큰 고민거리였다. 특히 무어의 법칙이 무너지고 가속기의 활용 가능성이 검증되지 않은 상황에서, 물리적인 계산량을 충족시킬 하드웨어의 부재, 수 십 배는 더 복잡해진 병렬 처리, 소비 전력의 제한 등은 총체적인 혁신이 필요한 상황이었다. 이에 슈퍼컴퓨터가 다시 주목한 것은 바로 GPU다. 엑사스케일로 증폭된 계산을 가장 잘 활용할 수 있는 분야가 바로 AI라는 점을 바탕으로, AI 특화 GPU가 슈퍼컴퓨터의 주류로 등극한 것이다.
이러한 현상의 중심에 있는 기업은 세계 최대의 GPU 개발 업체인 NVIDIA다. NVIDIA는 고성능컴퓨터 전용 GPU를 지속적으로 개발하는 노력과 더불어 견고한 소프트웨어 생태계를 구축하여 AI 컴퓨팅 인프라의 주도권을 가져왔다. 나아가 NVIDIA는 연산처리장치 아키텍처를 개발하는 암(Arm)을 인수하고 고성능 네트워크 장비 개발 업체인 멜라녹스를 인수하는 등의 행보를 통해 AI 데이터 센터의 영역까지 사업을 확장하고 있다.

이러한 NVIDIA의 독주는 이제 변화를 맞이하고 있다. 최초의 엑사스케일 슈퍼컴퓨터를 보유할 가능성이 가장 높은 미국은 2021년부터 총 3대의 엑사스케일 시스템을 순차적으로 도입할 예정이다. 가장 이른 시점에 공개가 예정되어 있는 오크리지 국립연구소의 프론티어(Frontier)는 또 다른 GPU 생산 기업인 AMD의 GPU를 탑재할 예정이다. 또한 2022년으로 출시가 연기된 아르곤 국립연구소의 슈퍼컴퓨터 오로라(Aurora)는 전통적인 연산처리장치 생산 기업인 인텔의 차세대 GPU가 탑재된다. 이제 NVIDIA가 거의 독점하다시피 한 AI 컴퓨팅 인프라 시장은 AMD와 인텔의 가세로 인해 더욱 역동적인 시장이 될 것으로 전망된다. 연구자나 기업의 입장에서는 GPU 인프라 선택의 폭이 넓어질 수 있다는 점은 매우 고무적이라고 볼 수 있다.

거대 사전학습 모델의 등장과 슈퍼컴퓨터
2020년 GPT-3가 촉발시킨 거대 사전학습 모델은 2021년 AI 트렌드의 한 축을 차지하고 있다. 거대 모델이라는 특성상 학습에 필요한 컴퓨팅 파워는 필수적이다. 지난 5월 네이버는 한국어 GPT-3로 이해할 수 있는 HyperCLOVA에 슈퍼컴퓨터급 계산 자원인 NVIDIA의 SuperPOD를 활용했다. 거대 모델을 통한 AI의 플랫폼 전략은 이제 대규모 컴퓨팅 파워를 운영할 수 있는 테크기업의 치열한 경쟁이 예상되고 있다. 또한 거대 모델의 학습뿐만 아니라 플랫폼 서비스를 위한 추론도 필요하기 때문에 AI 컴퓨팅 파워에 대한 수요는 지속적으로 증가할 것으로 전망된다. 거대 모델의 AI 시장 지배력은 점차 강화될 것으로 예상됨에 따라, AI 도입을 고려하는 기업들은 자체 개발과 서비스 활용 사이의 전략을 신중히 선택해야 할 것이다.