SPRi - 소프트웨어정책연구소

알파고 세계 바둑계를 정복하다

추형석 역대연구원

2017.06.30

27729

글자크기

AlphaGo conquers the game of GO
- 알파고는 커제 9단과의 대결을 끝으로 바둑계를 은퇴하며 인공지능의 가능성을 재증명
- 알파고는 지난 1년여 간의 인공지능의 기술적 성장을 바탕으로 한계를 극복하고 세계 정상 자리를 고수
- AlphaGo has been retired GO community after the victory against to Kejie
- AlphaGo overcomes its drawbacks by technical improvements of AI and defends the champion
알파고는 지난 5월 커제 9단을 3:0으로 완파하며 바둑계를 정복
- 커제 9단과 대결한 알파고(이하 알파고 2.0)는 총 3번의 대국에서 사소한 실수 없이 시종일관 상대를 압도
- 기존 이세돌 9단과 대결한 알파고(이하 알파고 1.0)는 대국 중간 치명적인 실수를 하거나 후반 계가 상황에서 역시 빈번한 실수가 존재
- 커제 9단에의 압도적인 승리로 알파고 2.0은 지난 1.0에서 보여준 약점을 보완
- 알파고와 같은 학습기반의 인공지능은 입력과 출력사이의 인과관계가 대부분 불분명하기 때문에, 어떠한 인공지능 시스템이 문제가 있을 때 문제의 원인을 파악하기 매우 어려움
- 알파고 2.0은 이러한 어려움을 극복했다는 것만으로도 큰 의미가 있으며, 알파고를 개발한 구글 딥마인드社는 올해 말 알파고 2.0의 자세한 내용을 담은 논문을 발표 예정¹
- 알파고 2.0은 과거 1.0보다 소규모 컴퓨팅 환경을 사용한 반면 체감 성능은 더욱 향상되어 기술적 진보를 달성
- 커제 9단과의 대국 당시 컨퍼런스에서 딥마인드 개발진은 컴퓨터 한대(single machine)의 시스템으로 대국을 진행했다고 밝힘
- 또한 바둑 전문가의 기보를 학습하지 않고 알파고 2.0을 개발했음을 시사함에 따라 알파고 2.0의 인공지능 기술의 귀추가 주목
알파고 2.0은 인공지능 전용 하드웨어(HW)를 탑재하여 컴퓨터 1대 수준으로 커제 9단에게 승리
- 지난 알파고 1.0은 슈퍼컴퓨터급 컴퓨팅 인프라를 활용한 결과로 대결의 형평성에 대한 문제가 제기
- 지난 2016년 발표된 알파고 논문에는 최대 1,920개 CPU(중앙연산처리장치) 코어와 280개 GPU(그래픽연산처리장치) 컴퓨팅 인프라를* 활용
- * 고성능 컴퓨터** 40대 정도의 규모로 시스템 가격은 약 30억 원 수준이며, 최대100킬로와트(KW)의 전력 소모
- ** 고성능 컴퓨터 1대에 약 48개의 CPU 코어와 8개의 GPU가 탑재된 것으로 추정
- 알파고 1.0이 슈퍼컴퓨터급 계산 환경을 활용했다는 점에서 형평성에 문제가 제기됐으나, 과거 인간과 대결한 인공지능*을 고려해보면 정당한 대결로 볼 수 있음
- * 체스 챔피언과 대결하여 승리한 IBM의 딥 블루, 퀴즈쇼 제퍼디!에서 우승한 IBM 왓슨은 모두 슈퍼컴퓨터 급 환경을 활용²
- 그러나 딥마인드의 최고경영자 데미스 하사비스는 알파고 1.0의 문제점으로 에너지 소비를 언급하며 이를 해결해야할 문제로 인식
- 구글은 인공지능 SW 뿐만 아니라 전용 HW를 개발하여 전력문제를 해결
- TPU는 구글이 지난 2014년부터 개발한 인공지능 전용 HW로 딥러닝 인공신경망의 학습(Training)과 추론(Inferencing)에 최적화
- 구글은 TPU의 성능을 분석한 논문3을 발표하여 기존 연산처리장치 대비 최대 80배의 전력소비*를 절감
- TPU의 저전력 특징으로 인해 컴퓨터 1대 수준의 구성으로도 높은 계산능력을 보유할 수 있음
- TPU의 핵심은 학습기반의 인공지능에서 가장 빈번하게 발생하는 계산인 행렬곱 연산을 처리하는 물리적인 연산처리 코어
- 알파고 2.0은 특히 학습기능을 강화한 차세대(second-generation) TPU4가 활용되어 컴퓨터 1대 수준으로 커제 9단에 완승
알파고 2.0은 바둑 전문가의 기보를 학습하는 전략을 버리고 새로운 학습방법을 적용
- 데미스 하사비스는 지난 1월 컨퍼런스를 통해 알파고 2.0이 과거 바둑기사의 기보를 학습하지 않고 새로운 방법을 적용했다고 밝힘⁵
- 알파고는 자체대국*을 통해 자신의 전략을 강화하는 강화학습을 수행했는데, 여기서 학습하는 기보는 알파고가 직접 생성한 것이기 때문에 바둑기사의 기보를 학습하지 않았다고 볼 수 있음
- * 자체대국은 알파고 1.0에도 탑재된 기능으로 전문가의 착수 선호도를 기보를 통해 학습한 뒤 이를 조금 더 개선하기 위한 것⁶
- 알파고가 생성한 기보를 사용했을 경우, 바둑기사의 기보를 학습한 결과를 바탕으로 기보를 생성했기 때문에 엄밀하게 보면 바둑 전문가의 기보와 완전히 독립적일 수 없음
- 또 하나의 추측은 완전히 새로운 개념*의 학습 방법으로 바둑 전략을 제시한 경우도 고려할 수 있음
- * 예를 들면, 바둑의 규칙만 알려주고 승리하는 전략을 도출하는 방식
- 알파고 2.0의 인공지능 알고리즘은 2017년 말에 공식적으로 공개될 예정으로 전문 바둑기사의 정보 없이 커제 9단에게 승리한 인공지능 기술에 대한 귀추가 주목
결론
- 알파고는 커제 9단과의 대결을 끝으로 바둑계를 은퇴하며 50개의 자체대국을 공개했는데, 전 세계 바둑계는 알파고가 4천년 역사의 바둑 격언에서 탈피한 행보를 보여줬음을 분석
- 이는 인간이 바둑 격언을 바둑의 틀로 생각하는 반면, 인공지능은 바둑을 게임 법칙에 의하여 객관적으로 접근했다고 볼 수 있음
- 이번 대결에서 많은 사람들이 알파고 2.0의 승리를 예측했으나, 약점을 극복하고 저전력 환경으로 도전하는 등 여러 가지 기술적 난제를 해결해 달성한 결과로써의 의미가 크기 때문에 향후 인공지능의 가능성을 재확인
- 1 AlphaGo’s next move, Deepmind, https://deepmind.com/blog/alphagos-next-move/
- 2 인공지능의 핵심 인프라 - 고성능컴퓨팅 환경의 중요성, 소프트웨어정책연구소 (2017)
- 3 Jouppi, Norman P., et al. “In-datacenter performance analysis of a tensor processing unit.” arXiv preprint arXiv:1704.04760 (2017).
- 4 Build and train machine learning models on our new Google Cloud TPUs, Jeff Dean (2017)
- 5 [해설]커제 꺾은 알파고, 1년 간 더 강해진 비결, 전자신문 (2017.05.23.)
- 6 AlphaGo의 인공지능 알고리즘, 소프트웨어정책연구소 (2016)