20일 관련 업계에 따르면, 구글 딥마인드와 블리자드 엔터테인먼트는 지난해 말 스타2 대결을 위한 AI 개발 협력을 발표한 이후 현재 이를 위한 강화학습 모델을 개발 중이다. 강화학습이란 AI 스스로 시행착오를 반복하면서 특정 목표 수행을 위한 최적의 요령을 찾는 것이다.
스타2는 게임 내 모든 활동이 실시간으로 이뤄지는 RTS(실시간 전략시뮬레이션) 장르다. 턴제(게이머들이 순서에 따라 번갈아가면서 진행하는 것) 방식의 바둑과 완전히 다른 형태다. 저그, 테란, 프로토스 등 세 종족마다 다양한 테크트리(유닛 생산과 건물 건설 순서)와 유닛이 존재할 뿐 아니라, 입구와 언덕, 섬 등 지형별 특성도 존재한다. 전투 승패를 결정짓는 유닛 컨트롤 역시 알파고가 해결해야 할 난제다. 프로게이머들은 끊임없이 연습한 컨트롤을 통해 유닛 간 상성(특정 유닛 간 대결 시 유불리 여부)을 뛰어넘는다. 적재적소에 사용하는 마법에 의해서도 승부가 뒤바뀌기도 한다.
아직 알파고와 인간 프로게이머 간 스타2 대결을 위한 준비 단계임에도 알파고의 승리는 시간 문제라는 목소리가 나온다. 기보와 대국 상대조차 없이 독학 36시간 만에 기존 알파고에 압승한 알파고 제로가 공개되면서 이런 주장에 힘이 실리고 있다.기보와 대국 상대조차 없이 독학 36시간 만에 기존 알파고에 압승한 알파고 제로가 공개되면서 이런 주장에 힘이 실리고 있다. 획기적으로 성능이 개선된 알파고 제로를 활용한다면 바둑에 이어 스타2까지 정복할 수 있을 것이란 분석이다. 실제로 알파고가 스타2를 정복한다면 전체 컴퓨터게임 영역에서 인간을 넘어섰다고 판단할 수 있다.
SC2LE 기반으로 AI가 특정 미션을 설정한 미니 게임들을 반복적으로 수행하면서 게임능력을 향상 시킬 수 있는 학습도 진행 중이다. 수십만건에 달하는 게임 리플레이 영상도 AI 학습에 활용되고 있다. 아직까지는 일대일 대결에서 게임에 기본적으로 탑재된 AI에 승리하지 못하는 수준으로 알려졌다.
구글 딥마인드는 이런 방식으로 최적화한 강화학습 모델을 알파고에 적용해 아마추어, 프로게이머 등과 비공개 대결을 가진 뒤 인간 최고수에 도전할 것으로 전망된다. 바둑처럼 인간 최고수에 승리를 거둘 수 있을 정도 실력을 갖췄다는 확신이 들 때 대결 상대와 일정을 잡을 것이라는 예상이다. 알파고의 도전 상대로는 이신형, 김유진, 어윤수 등 한국 프로게이머들이 꼽히고 있다.
[저작권자 @머니투데이, 무단전재 및 재배포 금지]