AlphaGo Zero, Open a New Way of AI(Artificial Intelligence)
알파고는 지난 5월 중국의 바둑 신성 커제 9단과의 대결에서 승리한 뒤 화려하게 은퇴했다. 이 대결은 과거 이세돌 9단과의 대결에 비하면 충격적이지 않았지만, 학계에 남겨진 여운은 매우 컸다.
첫 번째 이유는 알파고가 컴퓨터 한 대를 활용해 커제와 대결했다는 점이다. 이세돌 9단과의 대결에서는 슈퍼컴퓨터급의 장비를 활용했는데, 1년 여의 기간 동안 전력소비를 큰 폭으로 개선한 것이다. 두 번째는 바둑기사의 기보를 전혀 학습하지 않았다는 점이다. 이런 접근은 역설적으로 대규모 데이터를 학습해 패턴을 예측하는 현대 인공지능 개념을 뒤엎는 것이다.
구글 딥마인드는 지난 10월, 앞서 기술한 여운을 해결해 줄 논문을 세계적인 학술지 ‘ 네이처(Nature)’에 게재했다. 논문에서 소개된‘ 알파고 제로’는 바둑기사의 기보없이 스스로 대결하며 학습했다고 밝혔다. 비결은 강화학습이다. 강화학습은 행위에 대한 보상을 통해 전략을 강화하는 방법으로 게임 인공지능 분야에 주로 활용된다.
이세돌 9단과 대결한 알파고의 강화학습은 자체 대결(Self-Play)로 전략을 가다듬는데 활용됐다. 자체 대결에 사용된 바둑 전략은 인간의 기보를 학습한 인공신경망이다. 이것은 잘 알려졌다시피 3,000만 개의 바둑판 상태를 학습하여 전문 바둑기사의 착수 선호도를 학습했다. 그러나 전문 바둑기사의 기보는 완벽하지 않으며, 바둑 격언에 고착될 가능성이 높다. 이에 딥마인드는 학습한 기보 자료를 한 차원 뛰어 넘기 위해서 강화학습을 적용한 것이다. 결과적으로 이 접근은 이세돌 9단을 4:1로 물리치게 된 성공요인으로 작용했다.
알파고 제로의 강화학습 알고리즘은 지난 이세돌 9단과 대결했던 것보다 상당부분 개선됐다. 먼저 이세돌 9단과 대결한 알파고는 두 가지 형태의 인공신경망을 활용했다. 이 두 가지는 전문 바둑기사의 기보를 학습하여 착수 선호도를 결정하는 정책망과 현재 바둑판의 승률을 근사하는 가치망이다. 알파고 제로에서는 이 두 가지를 하나의 신경망으로 통합해 성능을 개선했다. 또한 기존 알파고는 바둑판을 48가지 특징으로 분류하여 학습을 진행했으나, 알파고 제로는 바둑돌의 위치만을 토대로 학습했다. 요약하자면 알파고 제로는 백지상태에서 바둑의 규칙만을 토대로 학습했다고 볼 수 있다.
바둑 규칙만을 토대로 스스로 학습한 알파고 제로는 이세돌 9단과 대결한 알파고와의 대국에서 100:0으로 완승했다. 또한 커제 9단과 대결한 알파고와는 89:11로 압도적인 승리를 기록했다. 알파고 제로는 비로소 바둑에서 인간을 뛰어 넘는(Superhuman) 성능을 보유한 것이다. 더욱 놀라운 사실은 이정도 수준에 오르기까지 약 48시간 남짓한 시간이 소요됐다는 것이다(그림 참고). 인간이 처음 바둑을 시작하여 프로 9단까지의 험난한 여정을 비춰보면 인공지능 기술의 발전이 새삼 빠르게 느껴지는 대목이다.
한편, 알파고 제로는 학습을 위해 4개의 TPU(Tensorflow Processing Unit)를 활용했다. TPU는 구글이 고안한 학습 전용 하드웨어(HW)로, 기존 연산처리장치보다 최대 80배 정도 전력 효율이 높다. 학습기반 인공지능은 일반적으로 계산량이 매우 많다. 현재 인공지능 컴퓨팅 인프라로 GPU가 각광받는 이유도 같은 가격의 CPU 대비 계산 성능이 월등히 뛰어나기 때문이다. 그러나 GPU의 전력 소모가 크다는 단점이 있다. TPU는 GPU와 같이 인공지능 학습에 뛰어난 성능을 보이면서도 전력을 적게 소모한다는 점을 주목할 필요가 있다.
구글 딥마인드의 알파고 제로는 현대 인공지능을 변혁을 알리는 신호탄이 될 것이다. 데이터를 스스로 생산하며 학습한다는 패러다임을 제시했기 때문이다. 사람처럼 행동하는 인공지능은 여전히 요 원한 일이지만, 알파고 제 로가 증 명한 기술발전의 속 도는 우리가 생각하는 것보다 더 빠를지도 모른다.