An endlessly changing playground teaches AIs how to multitask

멀티태스킹을 학습하는 AI

이제 AI는 가상게임 공간에서 학습하며 ‘인공 일반 지능’을 갖는 방향으로 나아가고 있다.

인공지능(AI) 기업 딥마인드(DeepMind)가 AI 학습에 사용하기 위해 알록달록한 색으로 꾸민 거대한 가상 놀이터 ‘엑스랜드(XLand)’를 개발했다. 엑스랜드는 끊임없이 새로운 과제를 부여하는 방식으로 AI에게 전반적인 기술을 가르친다. 단순히 특정 과제를 해결하는 데 필요한 기술을 개발하는 대신, AI들은 여러 기술을 실험하고 탐구하고 익힌 뒤 이전에 경험해본 적 없는 과제를 수행해낸다. 이러한 방식은 AI가 사람처럼 생각하고 판단할 수 있는 일반 지능(general intelligence)을 발전시키는 방향으로 나아갈 출발점이라고 할 수 있다.

엑스랜드란 무엇인가? 엑스랜드(XLand)는 비디오 게임과 유사한 3D 공간으로, AI 플레이어들은 색깔을 통해 이 공간을 감지할 수 있다. 이 공간을 관리하는 ‘중앙 AI(central AI)’는 게임 환경과 규칙, 플레이어 수를 바꾸는 방식으로 이곳을 이용하는 AI 플레이어들에게 수십억 개의 다른 과제를 부여한다. 이러한 과정에서 AI 플레이어들과 관리자 AI는 강화 학습(reinforcement learning) 방식으로 시행착오를 겪으며 성능을 높인다.

훈련 과정에서 플레이어들은 처음에 보라색 큐브 찾기나 빨간색 바닥에 노란 공 놓기 같은 단순한 1인용 게임을 수행한다. 그 이후에는 숨바꼭질이나 깃발 빼앗기 놀이 같이 더 복잡한 다인용 게임을 수행하게 된다. 관리자 AI는 어떤 구체적인 목표를 달성해야 할 필요는 없지만, 다른 플레이어들의 전반적인 수행 능력을 개선해야 한다.

엑스랜드가 획기적인 이유는? 딥마인드의 알파제로(AlphaZero) 같은 AI는 세계 최고의 인간 체스 선수와 바둑 기사를 꺾은 적이 있다. 그러나 그런 AI들은 한 번에 한 가지 게임만 배울 수 있다. 작년에 딥마인드의 공동 설립자 셰인 레그(Shane Legg)와 이야기를 나눴을 때 그가 했던 말처럼, 이런 방식은 마치 게임을 바꾸고 싶을 때마다 ‘체스 뇌’를 ‘바둑 뇌’로 교체해야 하는 것과 같다.연구자들은 현재 다양한 작업을 한 번에 배울 수 있는 AI를 개발하려고 노력 중이다. 다시 말하면, 여러 상황에 쉽게 적응할 수 있도록 AI에게 전반적인 기술을 학습시키고 있다.

실험하는 방법을 배운 이 봇들은 즉흥적으로 경사로를 만들어 냈다. / DEEPMIND

이러한 방향으로 AI를 발전시키는 과정에서 등장한 한 가지 흥미로운 추세는 개방형 학습(open-ended learning)이다. 즉, AI들이 특정한 목표 없이 다양한 과제를 수행하는 법을 학습하는 것이다. 이는 인간과 다른 동물들이 학습하는 방식이기도 하다. 인간이나 다른 동물들은 목표가 정해져 있지 않은 놀이를 통해 다양한 방식을 시도하고 그 과정에서 여러 가지 기술을 배운다. 그러나 AI를 이런 방식으로 학습시키기 위해서는 방대한 데이터가 필요하다. 엑스랜드는 끊임없이 부여되는 과제의 형태로 그런 데이터를 자동으로 생성한다. 이는 두 다리를 가진 봇(bot)들이 2D 공간에서 장애물을 헤쳐나가는 법을 배우는 AI 훈련 도장 포엣(POET)과 유사하다. 그러나 엑스랜드의 공간은 포엣보다 훨씬 복잡하고 정밀하다.

엑스랜드는 ‘AI를 만드는 AI 학습’ 사례라고 할 수 있다. 또는 포엣의 개발을 도왔고 오픈AI(OpenAI)에서 관련 주제를 연구하는 팀을 이끌고 있는 제프 클룬(Jeff Clune)이 말한 ‘AI 생성 알고리즘(AI-generating algorithm)’의 사례라고도 할 수 있다. 클룬은 “엑스랜드가 AI 생성 알고리즘의 경계를 넓히고 있으며, 이러한 과정을 지켜보는 것은 매우 흥미로운 일”이라고 말한다.

엑스랜드에서 AI들은 무엇을 학습했는가? 딥마인드의 엑스랜드에서 일부 AI들은 4천 개의 다른 공간에서 70만 개에 이르는 다른 게임을 수행했고, 그 과정에서 총 340만 개에 이르는 과제를 접했다. 기존의 거의 모든 강화 학습 AI들이 하는 것처럼 각 상황을 풀어낼 최적의 방식을 학습하는 대신, AI 플레이어들은 물체를 주변으로 움직여본 뒤 어떤 일이 일어나는지 확인하거나, 하나의 물체를 이용해 다른 물체까지 가거나 그 물체 뒤에 숨는 등 다양한 실험을 통해 각 과제를 해결해냈다.

위의 영상에서는 AI들이 물체를 주변으로 내던지며 유용한 것, 이를테면 위의 플랫폼으로 올라갈 경사로로 활용하기에 적합한 커다란 타일 같은 것을 찾는 모습을 볼 수 있다. 연구원들은 이런 결과가 전부 의도적인 것인지 그저 우연에 불과한 것인지 확실히 알기 어렵다고 말한다. 하지만 이런 결과는 지속적으로 발생한다.

실험하는 법을 배운 AI는 대부분의 과제를 수행할 때 다른 AI보다 유리했다. 심지어 이전에 경험한 적 없는 과제에서도 그랬다. 연구원들은 어려운 새 과제를 30분 정도 수행한 이후에 엑스랜드의 AI들이 새로운 과제에 빠르게 적응하는 것을 발견했다. 그러나 엑스랜드에서 시간을 보낸 적이 없는 AI들은 새로운 과제에 전혀 적응하지 못했다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.