구글 딥마인드가 개발한 인공지능 바둑 프로그램 AlphaGo는 지난 2017년 5월 중국의 바둑신성 커제 9단과 대결에서 완승한 뒤 바둑계에서 화려하게 은퇴했다. 커제 9단과 대결했던 AlphaGo는 과거 이세돌 9단과 대결했던 AlphaGo보다 완벽에 가까울 정도로 개선됐다. 그렇다면 어떻게 개선된 것일까? 딥마인드는 커제 9단의 대국이후 개선된 형태의 AlphaGo에 대해 구체적인 내용을 공개한다고 밝혔다. 딥마인드의 최고경영자인 데미스 하사비스는 특히 개선된 AlphaGo가 인간의 기보를 전혀 학습하지 않았고, 컴퓨터 1대 수준에서 경기에 임했다는 사실이 기존과의 차별점이라고 밝히면서 대중의 궁금증을 자아냈다.
2017년 10월 세계 최고의 학술지 네이처에는 “Mastering the Game of Go without Human Knowledge”라는 제목의 논문이 게재됐다. 바로 개선된 AlphaGo의 세부 내용을 담은 AlphaGo Zero에 관한 논문이다. 사실 AlphaGo를 개선한다는 것은 매우 도전적인 영역으로 인식됐다. 그 이유는 역설적으로 AlphaGo가 사용한 인공지능 알고리즘 때문이다. 과거 AlphaGo는 전문 바둑기사의 착수 선호도 예측과 바둑판 상태의 승률을 계산하기 위해 심층학습(Deep Learning)을 활용했다. 심층학습의 가장 큰 한계는 예측한 결과에 대한 인과관계를 설명할 수 없다는 점이다. 다시 말하면, 과거 AlphaGo가 실수했던 측면의 어떤 부분이 잘못됐는지를 전혀 알 수 없다는 것이다. 그러나 AlphaGo Zero는 이러한 우려를 불식시키며 개선에 성공하고 바둑계의 최정상 자리를 차지했다.
이번 보고서에서는 AlphaGo Zero의 인공지능 알고리즘을 분석해보고자 한다. 특히 과거 AlphaGo와의 어떠한 차별점이 있는지에 대해 집중적으로 다룰 것이다. 결론적으로 AlphaGo Zero는 인간의 기보를 전혀 학습하지 않았고, 자체 대국 결과를 학습 데이터로 활용하는 방법을 시도했다. 그 결과 AlphaGo Zero는 최정상 바둑 실력을 입증했다. 수 천 년을 이어온 바둑이 약 40일 간 학습한 인공지능에 정상을 내준 것이다.
Executive Summary
AlphaGo, an artificial intelligence Go program developed by Google's Deep Mind, retired brilliantly from Go community after winning against Ke Jie in May, 2017. AlphaGo, which confronted Ke Jie, was improved to be closer to perfection than the AlphaGo, which confronted Lee Se-dol. So how did it improve? Deep Mind announced that it will release specific details of the improved version of AlphaGo since competition with Ke Jie. Deep Mind CEO Chief Executive Demis Hassabis said that the fact that the improved AlphaGo did not learn human knowledge at all and that the game was played at the level of one computer was a distinction from the past.
In October, 2017, the world's leading journal Nature published a paper entitled “Mastering the Game of Go without Human Knowledge.” It is an article on AlphaGo Zero which contains details of the improved AlphaGo. In fact, improving AlphaGo was seen as a very challenging area. The reason is paradoxically because of the AI algorithm used by AlphaGo. In the past, AlphaGo used deep learning to calculate the winning rate and preference positions of professional Go player. The greatest limitation of deep learning is that it can not account for the causal relationship between predicted results. In other words, in the past, AlphaGo never knew what went wrong in order to make up the mistake. However, AlphaGo Zero succeeded in improving the situation by eliminating these concerns and took the top spot in the Go.
In this report, I try to analyze AlphaGo Zero's artificial intelligence algorithm. In particular, I will focus on what differentiates AlphaGo from the past. In conclusion, AlphaGo Zero has not trained human Go data, but tried to use self-play data for training. AlphaGo Zero proved to be the best player in the league with its excellent results. Thousands of years passed Go history gave the summit to the learned artificial intelligence for about 40 days.