
인간처럼 협력과 배신에 능숙한 AI 개발한 메타
메타가 인기 전략 게임 ‘디플로머시(Diplomacy)’에서 인간 플레이어와 견줄만한 수준의 AI를 개발했다. 이 게임은 7개국을 상징하는 각각의 플레이어가 유럽 영토 점령을 목표로 지도 위에서 유닛을 움직이며 경쟁하는 보드게임이다. 체스, 바둑과 같이 기존에 AI가 정복한 다른 보드게임과 달리, 디플로머시는 플레이어들이 동맹을 맺거나 협상하는 등 서로 대화하며 상대방의 속임수를 파악해야 한다.
‘시세로(Cicero)’라는 이름의 이 AI는 82명의 인간 플레이어를 상대로 40번의 온라인 게임을 거치며 상위 10%의 성적을 기록했다. 이때 플레이어들은 상대가 컴퓨터라는 사실을 알지 못했다. 여덟 판으로 구성된 한 대회에서 시세로는 총 21명의 플레이어 가운데 1위를 차지했다. 메타는 이 과정을 <사이언스>지에 논문으로 실었다.
AI가 디플로머시 게임을 학습한 것은 여러 측면에서 의미심장하다. 이 게임은 다수의 플레이어가 동시에 참여한다. 그리고 매 턴마다 플레이어들끼리 동맹을 결성하거나 연합 공격을 모의하기 위해 일대일 채팅을 통해 간단한 협상을 진행한다. 외교가 이루어지고 나면 플레이어들은 어떤 유닛을 어떻게 움직일지, 또 무슨 협상에 응하거나 배신할지 결정한다.
게임이 진행되는 동안 시세로는 지도 위의 상황과 이전에 이루어진 대화를 바탕으로 다른 플레이어의 행동을 모델링한다. 그런 다음 상호 이익을 위해 협력할 방법을 모색하고, 이러한 목표를 달성하도록 설득하는 내용의 메시지를 만들어낸다.
시세로를 개발하기 위해 메타는 두 가지 유형의 AI를 결합했다. 하나는 유닛을 어떻게 움직여야 할지 파악하는 강화학습 모델이고, 두 번째는 다른 플레이어와 전략적으로 상호작용하는 대규모 언어 모델(LLM)이다.
시세로는 아직 완벽하지 않다. 때때로 이 AI는 스스로 수립한 계획과 모순되거나 전략적으로 불리한 내용이 포함된 메시지를 보냈다. 그러나 메타는 사람들이 꽤 자주 다른 플레이어보다 시세로와 협력하기를 선택했다고 주장한다.
체스나 바둑과 같은 게임은 승패가 명확히 나뉘는 반면, 일반적으로 현실 문제는 그렇게 간단하지 않다. 이러한 점에서 이번 연구는 더욱 뜻깊다. 때로는 단순히 이기는 것보다 적당한 절충점과 차선책을 찾는 것이 더 유익할 수 있다. 메타는 교통혼잡지역의 경로 계획부터 계약 협상에 이르기까지 타협이 필요한 상황을 예로 들며, 시세로가 복잡한 문제들을 해결하는 데 도움을 줄 수 있는 AI의 개발로 이어질 수 있다고 강조한다.