SPRi - 소프트웨어정책연구소

슈퍼컴퓨터 주요 동향

추형석 역대연구원

2018.12.26

26318

글자크기

- 2018년 11월 공개된 슈퍼컴퓨터 순위에서는 미국이 정상의 자리를 이어감
- 미국과 중국은 슈퍼컴퓨터의 기술패권을 입증할 수 있는 최초의 엑사스케일 슈퍼컴퓨터 구축을 향해 치열하게 경쟁 중
1. 52번째 슈퍼컴퓨터 순위와 주요 특징
- 슈퍼컴퓨터의 성능은 매년 6월과 11월에 1위부터 500위까지 top500.org 사이트를 통해 공개된다. 2018년 11월 텍사스주 댈러스에서 개최된 슈퍼컴퓨팅 컨퍼런스 2018(Supercomputing Conference 2018, SC18)에서는 제52회 슈퍼컴퓨터 top500의 공개행사가 열렸다. 전 세계에서 가장 빠른 슈퍼컴퓨터인 미국 오크리지 국립연구소의 서밋(Summit)은 지난 2018년 6월에 이어 실측 성능 143.5페타플롭스1를 달성하여 1위를 차지했다. 2위를 차지한 미국 로렌스 리버모어 국립연구소의 시에라(Sierra)는 업그레이드를 거쳐 중국의 슈퍼컴퓨터 선웨이 타이후라이트를 3위로 제쳤다. 이후 10위권에 새로 진입한 슈퍼컴퓨터인 독일 라이프니츠 연구소의 SuperMUCNG는 19.5페타플롭스의 실측 성능을 달성해 8위에 등극했다. 우리나라는 지난 6월에 도입한 국가슈퍼컴퓨터 5호기 누리온이 11위에서 13위로 두 단계 하락했다.
- 그림 1 제52회 슈퍼컴퓨터 Top500 목록의 1위 ~ 5위 슈퍼컴퓨터
  ※ 자료 : TOP500 The list, https://www.icl.utk.edu/files/print/2018/top500-sc18.pdf
- 10위권 슈퍼컴퓨터의 주요 특징은 GPU를 탑재한 슈퍼컴퓨터가 5대로 반을 차지했다는 사실이다. 그간 슈퍼컴퓨터는 무어의 법칙2에 힘입어 CPU 위주의 구성이 주류를 이뤘다. 2008년3에 들어서는 GPU가 슈퍼컴퓨터 분야의 새로운 아이콘으로 부상하여 둔화되기 시작한 무어의 법칙을 보완하는 수단으로 각광을 받기 시작했다. 그러나 GPU의 성능은 그 구조적인 특성상 연산 강도(Arithmetic Intensity)가 높은 알고리즘에서만 최적의 성능을 달성할 수 있다는 이유로, 실제 슈퍼컴퓨터에서 활용되기에 많은 제약사항이 존재했다.4 그러나 심층학습(Deep Learning)의 등장으로 GPU가 슈퍼컴퓨팅 시장에서 각광받기 시작했다. 심층학습에서 GPU를 활용하는 것은 가격 대비 성능 측면에서 효율이 매우 뛰어나기 때문이다.5 이번 top500 목록에서는 1위와 2위를 차지한 슈퍼컴퓨터 모두 NVIDIA의 V100 GPU를 탑재했다.
- 2017년 12월에 시판된 NVIDIA V100은 Volta 구조의 계산 전용 GPU로 심층학습에 특화된 연산처리장치다. V100의 이론 성능은 과학계산 시뮬레이션과 슈퍼컴퓨터 성능 측정 지표로 활용되는 배정밀도(double-precision, FP64) 기준 7.8테라플롭스, 심층학습과 컴퓨터 비전 처리에 활용되는 단정밀도(single-precision, FP32) 기준으로 15.7테라플롭스다.
- 그림 2 NVIDIA V100 GPU
  ※ 자료 : NVIDIA TESLA V100 GPU Architecture http://images.nvidia.com/content/volta-architecture/pdf/volta-architecture-whitepaper.pdf
- 여기에 V100은 텐서 코어(Tensor Core)라는 아키텍처를 추가로 탑재했다. 텐서 코어는 4x4 행렬의 곱셈과 덧셈 연산을 <그림 3>과 같이 수행하는 연산처리 코어다. 특히 반정밀도(half-precision, FP16)와 단정밀도를 혼합하는 방법을 활용해 낮은 정밀도 계산에서 전파될 수 있는 오차를 줄이는 접근을 취한다. 더불어 행렬 연산에 최적화된 텐서 코어는 전력 절감의 특징도 보유하고 있어 성능대비 효율이 높은 편이다. V100에는 640개의 텐서 코어를 탑재하여 최대 125테라플롭스의 이론 성능을 보여주고 있다. 단 125테라플롭스는 앞서 언급한 대로 정밀도에 대한 제한이 있기 때문에, 현재 슈퍼컴퓨터의 성능을 비교하는 기준인 배정밀도 성능과는 직접 비교하기 어렵다.
- 그림 3 NVIDIA V100 GPU의 텐서 코어의 연산처리
  ※ 자료 : NVIDIA TESLA V100 GPU Architecture http://images.nvidia.com/content/volta-architecture/pdf/volta-architecture-whitepaper.pdf
- 텐서 코어의 막대한 연산능력으로 인해 1위 슈퍼컴퓨터 서밋은 유전체학 시뮬레이션에서 초당 연산수 1.88엑사번을 달성했다.6 현재 슈퍼컴퓨터의 가장 큰 도전과제는 엑사스케일 컴퓨터를 개발하는 것에 있다. 비록 서밋이 보여준 1.88엑사번의 연산은 슈퍼컴퓨터의 전통적인 성능 측정 지표인 배정밀도는 아니지만, 초당 연산수가 엑사번을 넘어선 것은 혁신적인 일이라고 볼 수 있다.
- 이렇게 슈퍼컴퓨터의 동향이 GPU와 인공지능으로 변화하면서 순위 측정기준을 더 다양화하는 논의가 진행 중이다. 현재 슈퍼컴퓨터 순위 측정 방식은 고성능 선형대수 라이브러리(High Performance Linpack, HPL)7의 실제 성능순이다.
2. 슈퍼컴퓨터를 둘러싼 미·중 기술패권 경쟁
- 현재 슈퍼컴퓨터의 가장 큰 도전과제는 엑사스케일 컴퓨팅이다. 이 목표에 가장 근접한 국가는 미국과 중국이다. 중국은 2017년 자체기술만으로 세계 정상을 차지한 선웨이 타이후라이트의 기술력을 바탕으로 2020년까지 엑사스케일 슈퍼컴퓨터를 구축하겠다고 선언했다. 슈퍼컴퓨터의 종주국이자 요람이라 할 수 있는 미국은 2021년에 엑사스케일을 달성하겠다고 청사진을 내놓은 상황이다. 슈퍼컴퓨터 정상의 자리 역시 미국과 중국이 엎치락뒤치락하는 가운데 슈퍼컴퓨터를 둘러싼 미·중의 기술패권 경쟁이 심화되고 있다.
- 미국은 사실상 전 세계의 슈퍼컴퓨터를 공급하는 나라다. 연산처리장치의 주요 생산업체인 Intel, NVIDIA, AMD, IBM 등 대다수의 기업이 미국에 포진돼 있다. 또한 미국의 주요 주립대나 대부분의 국가 연구소는 슈퍼컴퓨터 시스템을 구축하고 있으며, 보안상의 이유로 슈퍼컴퓨터 목록에 등재되지 않은 자원도 많이 있다. 특히 구글, 페이스북 등 미국의 글로벌 IT기업은 자신의 컴퓨팅 파워를 노출하는 것을 꺼려하여 슈퍼컴퓨터 등재 자체를 하지 않는다. 이러한 사실을 바탕으로 보면 미국의 잠재적인 컴퓨팅 파워는 막대할 것이다. 미국은 중국의 급격한 추격에도 흔들리지 않는 견실함이 있다고 볼 수 있다. 또한 중국이 자체기술로 개발한 선웨이 타이후라이트는 놀라운 결과이긴 하지만 미국의 아성을 넘기는 힘들다는 견해가 있다. 그 이유는 슈퍼컴퓨터에서 전통적으로 활용되는 Intel이나 NVIDIA의 연산처리장치에서 찾아볼 수 있다. 그림 4에서 볼 수 있듯이, 연산처리장치와 가속기의 비중은 모두 미국 기업이 선점하고 있다.
- 그림 4 연도별 연산처리장치의 생산기업 변화(좌), 연도별 가속기 생산기업 변화(우)
  ※ 자료 : TOP500 The list https://www.icl.utk.edu/files/print/2018/top500-sc18.pdf
- 중국은“수치상”으로는 미국에 근접한 슈퍼컴퓨터 보유국이다. 지난 2017년에는 국가별 top500 목록의 슈퍼컴퓨터 보유율에서 중국이 미국을 앞섰을 뿐만 아니라, top1 머신도 중국의 선웨이 타이후라이트였다. 이러한 관점에서 봤을 때 중국이 미국을 위협한다는 분석은 일견 설득력 있어 보인다. 또한 중국 정부의 슈퍼컴퓨터에 대한 투자 의지는 매우 강력하다. 미국이 연산처리장치 수출을 제재함에 따라 중국 역시 자생해야 하는 숙제가 생겼기 때문이다. 그러나 중국이 처해있는 상황은 녹록지 않다. 먼저 미국과 그 우방국의 지지 없이 자국의 연구진만으로 기술격차를 해소하기에는 어렵다는 관점이다. 물론 선웨이 타이후라이트가 성공했지만, 사실 문제는 그 이후다. 또한 미국에 버금가는 중국의 슈퍼컴퓨터 보유율에는 허수가 있다. 미국은 글로벌 IT기업이 등재하지 않는 분위기인 반면, 중국은 IT기업도 적극적으로 등재하고 있다. 이러한 사실로 볼 때 중국을 미국과 대등한 슈퍼컴퓨터 강국으로 보기는 어렵다.
- 선웨이 타이후라이트에 탑재된 연산처리장치인 SW26010은 Intel이나 NVIDIA의 연산처리장치와는 구조적으로 다르다. 따라서 Intel이나 NVIDIA 기반으로 개발된 수치 라이브러리를 모두 SW26010에 성공적으로 이식시켜야 본격적인 경쟁이 가능하다. 거의 50년 가까이 누적된 알고리즘의 최적화를 SW26010에 구현한다는 것은 중국의 노력만으로는 사실상 불가능하다. SW26010을 많이 활용할 수 있는 연구 생태계 확보가 불가능하다면 사실상 미국과 직접 대결하기는 어렵다. 그러나 한편으로는 중국의 위협이 무섭다는 판단도 있다. 중국은 거대한 내수 시장이 있다. 중국이 자체적으로 개발한 슈퍼컴퓨터를 중국 내부에서 활용하는 생태계를 조성한다면 기술의 격차가 현격히 좁아질 수 있다는 입장이다.
- 미국과 중국의 슈퍼컴퓨팅 기술 경쟁은 사실상 과학기술의 리더를 경쟁하는 자리라고 볼 수 있다. 여러 사실들을 종합해 보면, 중국이 미국을 위협한다는 것은“수치상”일 뿐이지 현실은 그렇지 않을 수 있다. 그러나 수치상으로 미국을 앞선다는 사실은 중국의 기술력이 그만큼 앞서 있다는 착시를 줄 수 있기 때문에, 기술패권을 경쟁한다는 구도로 보일 수도 있다.
- 지난 2015년 미국의 대중 연산처리장치 수출제재는 결국 미국이 승리했다고 본다. 미국은 유럽 및 일본과 같은 슈퍼컴퓨터 강국과 우호적인 관계를 이어오고 있다. 그 연구 생태계도 마찬가지다. 슈퍼컴퓨터에서 미국과 중국의 대결은 미국, 유럽, 일본과 중국의 대결 구도다. 중국이 급성장하고 막대한 투자를 이어가고 있기는 하나 기존의 생태계를 흔들 수 있는 것은 아니다.
- 정리하자면 중국은 최단 기간 안에 미국에 수치상으로 대등한 슈퍼컴퓨터를 보유했다. 그러나 그 기술력의 차이는 여전히 존재하는 것으로 판단된다.
3. 결론
- 현재 슈퍼컴퓨터의 주요 동향은 인공지능 기반의 GPU 가속기를 탑재한 시스템이 주류를 이루고 있다. 슈퍼컴퓨팅을 비롯한 고성능컴퓨팅의 수요가 전통적인 과학계산과 시뮬 레이션은 물론 심층학습에까지 미치고 있다. 또한 최초의 엑사스케일 시스템 구축을 위한 미·중 경쟁이 치열해지고 있는 상황이며, 중국은 미국과의 경쟁에서 한발 앞서나가고자 구축일정을 2020년으로 선언한 상태이다. 2019년에는 중국의 엑사스케일 프로젝트의 윤곽이 드러날 것으로 판단되어 그 귀추가 주목된다.
- 1 플롭스(Flops) 단위는 초당 부동소수점 연산수를 말하고, 슈퍼컴퓨터의 성능 측정은 배정밀도(double precision)를 활용하며, 1페타플롭스는 초당 1천조 번 연산이 가능한 시스템을 의미함.
- 2 매 18개월마다 연산처리장치의 성능이 2배 향상된다는 법칙. 현재는 2배 성능 향상을 위해 소요되는 시간이 길어짐에 따라 추세가 둔화됨.
- 3 GPU의 대표적인 벤더인 NVIDIA는 용이한 병렬 프로그래밍 툴킷인 CUDA(Compute Unified Device Architecture)를 공개하여 GPU를 활용한 프로그래밍의 진입장벽을 낮춤.
- 4 연산 강도는 연산량와 메모리 전송량의 비율로 결정되며, 현대 연산처리장치는 메모리 전송속도(bandwidth)보다 연산능력(processing power, 코어×클럭스피드×연산수)이 뛰어나기 때문에, 연산강도가 높은(연산량이 메모리 전송량보다 많을 경우) 알고리즘에 한해서 최대의 성능을 달성할 수 있음. GPU는 특히 연산능력과 메모리 전송속도의 차이가 크기 때문에 연산강도가 낮은 알고리즘의 경우 상당한 폭으로 성능이 저하됨.
- 5 인공지능의 핵심 인프라 - 고성능컴퓨팅 환경의 중요성, 소프트웨어정책연구소(2016).
- 6 GENOMICS CODE EXCEEDS EXAOPS ON SUMMIT SUPERCOMPUTER, Oak Ridge National Lab(https://www.olcf.ornl.gov/2018/06/08/genomics-code-exceeds-exaops-on-summit-supercomputer/).
- 7 Linpack은 Linear algebra package의 약자로 수치선형대수 루틴이 포함된다. 예를 들면, 행렬의 고유치 해법, 행렬 분해법 등 미분방정식 기반의 과학 시뮬레이션과 관련된 함수들로 구성된다.(HPL homepage : http://www.netlib.org/benchmark/hpl/).