알파고 개발진으로 유명세를 탄 딥마인드(DeepMind)는 지난 2019년 10월 30일 세계 최고의 학술지 네이처에 스타크래프트2 인공지능(AI)인 알파스타(AlphaStar) 논문을 발표했다. 알파스타는 2019년 1월 처음으로 딥마인드 홈페이지를 통해 대중에 알려졌으며, 당시 정상급 프로게이머와 대결해 10승 1패를 거둬 큰 이슈가 됐다. 그러나 당시에는 알파스타의 세부적인 내용이 공개되지 않아 알파스타가 어떻게 프로게이머 수준에 등극했는지에 대해 제한적으로 이해할 수 있었다.
이 보고서는 네이처지에 실린 알파스타의 AI 알고리즘을 보다 쉽게 전달하고자 한다. 스타크래프트2라는 게임은 바둑과는 또 다른 차원의 지능적 행동을 요구한다. 서로 상성이 존재하는 전략, 불완전한 정보, 실시간 조작, 장기 계획 등 프로게이머 수준의 스타크래프트2 AI을 개발한다는 것은 AI 분야의 또 다른 그랜드 챌린지이기 때문이다. 알파스타의 개발 과정 역시 순탄치는 않았는데, 연구 초기에 공개한 결과는 일반인 수준정도였기 때문이다. 딥마인드는 성능을 향상시키기 위해 스타크래프트2 AI 학습을 수월하게 시킬 수 있는 학습 도구와 데이터를 대중에 공개하여 연구의 참여를 유도했다.
알파스타는 복잡한 스타크래프트2 AI를 구현하기 위해 10여 개의 AI 알고리즘을 활용했다. 알파스타의 학습 과정은 알파고와 매우 유사한데, 학습에 활용된 AI 모델은 매우 상이하다. 이 보고서는 쉬운 이해를 돕기 위해 바둑과 스타크래프트2, 알파고와 알파스타의 차이점을 바탕으로, 알파스타가 해결하고자 하는 도전과제에 대해 구체적으로 설명할 것이다. 이어서 알파스타 개괄적인 흐름을 지도학습-강화학습-리그학습으로 구분하여 설명하고, 각 단계가 어떠한 의미를 갖는지에 대해 소개하고자 한다.
알파스타는 91.7만 건의 리플레이 데이터를 활용해 44일간 학습하여 스타크래프트2 상위 0.2%에 도달했다. 알파스타를 접한 많은 전문가들은 알파스타가 AI 분야의 또 다른 그랜드 챌린지를 해결했다며 호평하는 한편, 바둑과 같이 정복한 것은 아니라고 밝혔다. 알파스타는 세계 챔피언을 노리기에 아직 보완이 필요하다는 것이 중론이지만, 딥마인드가 다시 한 번 우리나라를 방문해 세계 최고 수준의 국내 스타크래프트2 프로 게이머와의 대결이 성사된다면 다시 한 번 AI의 힘을 전 세계에 알리게 될 계기가 될 것이다.
Executive Summary
DeepMind, famous for AlphaGo, unveiled a study that would surprise the world once again on October 30, 2019. It was about AlphaStar, a StarCraft II AI. In fact, this result has already been foreseen. In January 2019, DeepMind presented its first StarCraft II AI, named AlphaStar, and announced that it had won 10-1 against professional gamers. At that time, however, the details of Alphastar were not disclosed, giving a limited understanding of how Alphastar became pro-gamer.
This report aims to provide a easier explanation of AlphaStar's AI algorithms published in Nature. A game called StarCraft II requires a different level of intelligence than Go. Developing StarCraft II AI at the pro-gamer level, including congruent strategies, incomplete information, real-time manipulation, and long-term planning, was another grand challenge in AI. The development process of AlphaStar was also not smooth, as the results of the initial research were not good enough. For this purpose, DeepMind encouraged participation in research by opening up learning tools and data to the public to facilitate StarCraft II AI learning.
AlphaStar has used over 10 AI algorithms to implement complex StarCraft II AI. AlphaStar's learning process is very similar to AlphaGo, but the AI models used for learning are very different. This report will elaborate on the challenges AlphaStar is trying to solve, based on the differences between Go and StarCraft II, AlphaGo and AlphaStar, for easy understanding. Next, I will explain the general flow of AlphaStar into supervised learning, reinforcement learning, and league learning, and introduce what each stage means.
AlphaStar learned about 44 days using 91.7 million replays to reach the top 0.2% of StarCraft II. Many experts who have encountered AlphaStar praised AlphaStar for solving another grand challenge in AI, but said it was not conquered as Go. Although AlphaStar is still in need of a supplement to become a world champion, if DeepMind visits Korea again and confronts the world's best Korean StarCraft II pro-gamer, the power of AI will be proven once again.