Sony’s racing AI destroyed its human competitors by being nice (and fast)

매너 있는 경기 운영으로 인간 경쟁자들을 물리친 소니의 레이싱 AI

소니의 레이싱 AI ‘그란투리스모 소피’는 빠른 속도뿐만 아니라 ‘에티켓’을 탑재하여 인간 경쟁자들을 이길 수 있었다. 그란투리스모 소피가 학습한 내용들은 언젠가 AI가 도로 위에 합류하거나 인간과 협업하여 운전할 때 도움이 될지도 모른다.

“잠깐, 뭐? 어떻게?” 에밀리 존스(Emily Jones)는 뒤처지는 것에 익숙하지 않았다. 자신의 이름으로 여러 번 우승을 차지한 최고의 심레이싱(sim-racing) 드라이버 존스는 눈앞의 화면에 시선을 고정한 채 운전대를 홱 움직였다. “분명 따라잡을 수 없을 만큼 빠르게 움직였는데, 어떻게 그럴 수가 있지?” 타이어의 끼익하는 높은 소음 사이로 한 번씩 말을 내뱉으면서 존스는 가상 트랙 위에서 자신의 가상 자동차를 거칠게 몰았다. 그리고 시속 190km에서 점점 가속하여 시속 210km, 시속 230km의 빠른 속도로 세계에서 가장 빠른 그란투리스모(Gran Turismo) 드라이버를 추격했다.

2020년 소니(Sony)가 설립한 연구소인 소니AI가 제작한 ‘그란투리스모 소피(Gran Turismo Sophy, 이하 ‘GT 소피’)’는 실제 차량과 트랙을 초현실적으로 시뮬레이션한 것으로 유명한 그란투리스모(Gran Turismo)라는 비디오게임의 세계 안에서 레이싱카를 제어하도록 학습한 컴퓨터 프로그램이다. 지난해 비공개로 열린 일련의 행사를 통해 소니는 프로 심레이싱 서킷에서 최고의 인간 드라이버들을 상대로 그란투리스모 소피를 공개했다.

그들이 그날 가상 트랙에서 경주를 벌이며 발견한 것들과 그 이후에 알게 된 내용들은 기계가 도로 위에 합류하거나 인간과 함께 협력하는 미래의 모습을 형성하는 데 도움이 될지도 모른다.

호주 멜버른에 거주하며 트랜스태즈먼레이싱(Trans Tasman Racing)이라는 이스포츠팀 소속 드라이버로 활동하는 존스는 2021년 7월에 자신에게 어떤 일이 벌어질지 예상하지 못했다. 1년이 지난 지금 그녀는 “나는 당시 자세한 내용을 듣지 못했다”며 “그들은 내게 ‘연습할 필요 없다, 그것의 랩타임을 보지 말아라’라고 말했고 나는 그들이 계속 내게 비밀로 하기를 바랐다”고 말했다. 결국 GT 소피는 존스의 최고 랩타임을 1.5초 차이로 앞섰다. 1,000분의 1초 차이로 기록이 깨질 수 있는 레이싱 세계에서 1.5초는 엄청난 차이였다.

그러나 소니는 속도만으로는 GT 소피를 우승자로 만들 수 없다는 사실을 곧 깨닫게 되었다. GT 소피는 세 가지 가상 코스에서 인간을 뛰어넘는 랩타임을 기록하며 빈 트랙에서는 모든 인간 드라이버들을 크게 앞질렀다. 그러나 속도뿐만 아니라 머리도 써야 하는 여러 인간 드라이버와의 레이싱에서는 GT 소피가 우승을 차지할 수 없었다. GT 소피는 때때로 너무 공격적으로 운전하며 난폭한 운전으로 인한 벌점을 쌓았고, 그럴 필요가 없는 상황에서도 양보하며 지나치게 소심한 모습을 보이기도 했다.

소니는 프로그램을 재정비해서 다시 AI를 학습시키고 10월에 재경기를 준비했다. 이번에는 GT 소피가 손쉽게 경기에서 우승했다. 어째서 이런 차이가 생겼던 것일까? 물론 소니가 신경망(neural network) 크기를 키우고 AI가 상황에 따라 조금 더 유연하게 대처할 수 있도록 능력을 부여한 것은 사실이다. 그러나 궁극적인 차이점은 따로 있었다. 바로 소니 AI 아메리카의 책임자 피터 워먼(Peter Wurman)이 ‘에티켓’이라고 부르는 능력을 GT 소피에 부여한 것이었다. 에티켓이란 각 상황에서 가장 적합한 행동을 선택하여 프로그램의 공격성과 소심성의 균형을 맞추는 능력을 의미한다.

GT 소피의 사례가 그란투리스모 게임을 뛰어넘어 다른 곳에도 적용될 수 있는 이유도 바로 이 에티켓 덕분이다. 워먼은 트랙 위에서 드라이버들 사이의 에티켓을 가리켜 로봇이 인간과 상호작용할 때 보일 것으로 기대되는, 맥락을 인지한 역동적인 행동의 구체적인 사례라고 설명했다.

기계가 언제 위험을 감수해야 하고 언제 안전하게 행동해야 하는지 제대로 인식하는 능력은 제조 현장, 가정용 로봇, 무인 자동차 등 사람과 더 나은 상호작용이 필요한 인공지능(AI)에 유용할 것이다.

워먼은 “우리는 우리가 존중해야 하는 인간의 규범을 다루는 방법과 관련해서 아직은 일반적인 원칙을 알아내지 못했다고 생각한다”며 “그러나 이것은 시작이며, 이번 사례가 이 문제에 관한 일반적인 통찰을 제공하기를 바란다”고 밝혔다.

게임체인저

GT 소피는 체스와 바둑부터 스타크래프트와 도타 같은 비디오게임에 이르기까지 다양한 게임에서 전 세계 최고의 인간 플레이어들을 이긴 AI 시스템 중에서 가장 최근의 사례이다. 소니는 그란투리스모에서 활약할 이번 AI를 개발하면서 새로운 유형의 어려움을 이겨내야 했다. 특히 턴제 게임을 비롯한 다른 게임과는 달리 그란투리스모에서는 최고의 플레이어들이 물리적으로 가능한 한도 내에서 실시간으로 다른 플레이어들과 매우 가까운 거리에서 차량을 제어해야 한다.

자동차들은 서로 겨우 몇 센티미터의 간격을 둔 채 시속 160km 이상으로 코너를 돌며 질주한다. 이런 속도에서는 아주 작은 오류도 충돌로 이어질 수 있다. 그란투리스모는 현실 세계의 물리학을 매우 상세하게 포착하여 트랙 위에서 자동차의 공기역학과 타이어의 마찰을 시뮬레이션한다. 이러한 특성 덕분에 그란투리스모는 때때로 실제 레이싱을 위해 드라이버들을 훈련시키고 모집하는 데 사용되기도 한다.

스위스 취리히대학교에서 로봇공학과 지각 연구팀을 이끌고 있는 다비드 스카라무차(Davide Scaramuzza)는 그란투리스모가 “사실성이 매우 뛰어난 게임”이라고 말했다. 스카라무차는 GT 소피 개발에 관여하지 않았지만, 그의 연구팀은 그란투리스모를 사용해서 AI 드라이버를 학습시킨 적이 있다. 그 AI 드라이버는 인간을 대상으로 테스트되지는 않았다.

GT 소피는 인간 플레이어와 같은 시각으로 게임을 보지 못한다. 화면의 픽셀을 읽는 대신 GT 소피는 트랙 위에서 자신의 자동차 위치와 그 주변에 있는 다른 자동차들의 위치에 대한 업데이트 정보를 이용한다. 또한 자신의 차량에 영향을 주는 가상 물리력에 대한 정보도 확보한다. 그에 대한 반응으로 GT 소피는 자동차에 코너를 돌거나 브레이크를 밟으라고 전달한다. GT 소피와 게임 사이에 일어나는 이러한 메시지 교환은 1초에 10번 정도 발생하는데, 워먼과 그의 동료들은 이것이 인간 플레이어의 반응 시간과 일치한다고 주장한다.

소니는 강화학습(reinforcement learning)을 이용하여 시행착오 방식을 통해 GT 소피를 처음부터 학습시켰다. 처음에 GT 소피는 도로에서 자동차를 유지하는 것도 힘들어했다. 그러나 각각 프로그램의 20개 인스턴스를 실행하는 플레이스테이션4 10대를 가지고 학습한 이후에 GT 소피는 아마추어 플레이어들이 연습용으로 사용하는 그란투리스모 내장 AI를 약 8시간 만에 따라잡았다. 24시간이 지나자 GT 소피는 1만 7,700명의 인간 플레이어들의 기록이 담긴 온라인 리더보드 최고 순위에 근접한 랩타임을 기록할 수 있었다.

GT 소피가 랩타임에서 1초도 손해 보지 않게 되는 데까지 9일이 걸렸다. 그때쯤에 GT 소피는 모든 인간 플레이어보다 빠른 랩타임을 기록했다.

GT 소피는 게임이 허용하는 한계 내에서 운전하는 법을 배웠고 인간 플레이어들이 넋을 잃고 바라볼 수밖에 없는 움직임을 실현했다. 특히 존스는 GT 소피가 코너를 돌 때 브레이크를 먼저 밟고 자신보다 훨씬 타이트한 라인에서 가속 페달을 밟는 것을 보고 충격을 받았다.

존스는 “GT 소피는 내가 생각지도 못한 이상한 방식으로 커브를 사용했다”고 말했다. 예를 들어 GT 소피는 트랙 가장자리에 있는 잔디 위로 바퀴를 떨어뜨린 다음 미끄러지면서 코너를 도는 일도 많다. 존스는 “우리는 실수할 가능성이 있으니 그런 운전은 하지 않는다. 마치 통제된 충돌과 같다. 나는 아마 100번 중에 한 번 정도 성공할 수 있을 것 같다”고 밝혔다.

GT 소피는 게임의 물리학에 빠르게 통달했다. 더 큰 문제는 심판들이었다. 프로 경기에서는 그란투리스모 경주에 인간 심판이 개입한다. 인간 심판들은 위험한 운전을 하는 드라이버에게 벌점을 부여할 수 있다. GT 소피가 7월 말 벌어졌던 첫 번째 경주에서 속도로 인간 드라이버를 앞질렀는데도 패배했던 원인이 바로 벌점 때문이었다. GT 소피가 벌점을 피하는 법을 배운 것이 두 번째 경주에서 모든 차이를 만들었다.

과격하지만 정정당당하게

워먼은 몇 년 동안 GT 소피를 연구해왔다. 그의 책상 뒤쪽 벽에는 두 대의 자동차가 서로 자리를 다투는 그림이 걸려 있다. 워먼은 지난해 GT 소피와 경쟁했던 일본 프로 심레이싱 드라이버 4명 중 한 명인 야마나카 도모아키(Tomoaki Yamanaka)를 언급하며 “이 그림은 GT 소피 자동차가 야마나카를 추월하는 장면”이라고 설명했다.

워먼은 그 그림이 어떤 레이싱에서 가져온 것인지 기억하지 못했다. 해당 경기가 10월 경기였다면 야마나카는 과격하지만 정정당당한 상대와 경주를 벌이며 좋은 시간을 보내고 있었을 것이다. 하지만 그것이 7월 경기였다면 아마도 그는 컴퓨터를 욕하고 있었을 것이다.

야마나카의 팀 동료 미야조노 다쿠마(Takuma Miyazono)는 통역사를 통해 내게 7월 경주에 관해 이야기했다. 그는 “GT 소피가 너무 공격적으로 코너에 들어가는 바람에 우리가 트랙에서 밀려난 적도 몇 번 있었다”며, “GT 소피가 우리를 따돌렸다. 당시 인간 드라이버들은 도로에서 밀리지 않기 위해 코너를 돌 때마다 조심해야 했다”고 말했다.

워먼은 AI가 경쟁 우위를 잃지 않은 상태에서 정정당당하게 경기하도록 학습시키는 것이 어려웠다고 밝혔다. 인간 심판들은 맥락에 따라 주관적인 판단을 내리기 때문에 AI 학습을 위해 해도 되는 일과 해서는 안 되는 일을 분류하는 단순한 목록을 만들기가 어렵다.

소니 연구원들은 AI에 다양한 신호를 주고 AI가 주행할 때 상황에 맞춰서 조정하며 효과가 있는 조합을 찾고자 했다. 그들은 AI가 트랙을 벗어나거나 벽에 부딪치면 벌점을 부과하려고 했다. 또한 AI가 유발했거나 인간 심판의 판단이 어느 쪽으로 기울지 확신이 없는 충돌에 대해서도 벌점을 부과했다. 연구원들은 각기 다른 규모의 패널티를 가지고 실험하면서 이에 따라 GT 소피의 운전이 어떻게 달라지는지 확인했다.

소니는 GT 소피를 학습시키면서 점점 더 강한 경쟁 상대와 경주하게 했다. 이전에는 대체로 같은 프로그램의 이전 버전을 상대로 학습했지만, 10월 재대결을 준비하면서 소니는 매주 또는 2주마다 최고의 드라이버들을 상대로 테스트를 진행하며 끊임없이 AI를 조정했다. 워먼은 “그런 작업을 통해 우리는 공격성과 소심성 사이의 적절한 균형을 찾는데 필요한 피드백을 얻을 수 있었다”고 말했다.

이런 작업은 효과가 있었다. 석 달 후 미야조노가 GT 소피와 다시 레이싱을 벌였을 때 AI의 공격성은 이미 사라진 상태였다. 그래도 GT 소피는 쉽게 물러서지 않았다. 그는 “양쪽에 차 두 대가 붙은 채로 코너에 도달하면 GT 소피는 차 한 대만 지나갈 수 있는 공간을 남겨준다”며, “마치 실제로 다른 사람과 함께 경주하고 있는 것처럼 느껴진다”고 밝혔다.

그는 “그런 식으로 반응하는 상대와 경주하면 일종의 열정과 재미를 얻을 수 있다”며 “GT 소피와의 경주는 내 마음에 강한 인상을 남겼다”고 덧붙였다. 

스카라무차는 소니의 연구에 깊이 감명받았다. 그는 “우리는 인간이 할 수 있는 것과 비교하여 로봇 공학의 진척도를 측정한다”고 말했다. 그러나 취리히대학교에서 스카라무차와 함께 연구하는 엘리아 코프먼(Elia Kaufman)은 학습 과정에서 GT 소피가 어떤 행동을 하게 할지 선택하는 것은 여전히 인간 연구원들이라는 점을 지적했다. 그는 “무엇이 좋은 경기 에티켓인지 판단하는 것은 인간 연구원들”이라며, “그 부분까지도 자동화된 방식으로 이루어질 수 있다면 정말 흥미로워질 것”이라고 밝혔다. 만약 그런 기계가 만들어질 수 있다면 그 기계는 좋은 매너를 가지고 있을 뿐만 아니라 어떤 것이 좋은 매너인지 인식하여 자신의 행동을 새로운 설정에 맞출 수 있을 것이다.

스카라무차의 연구팀은 현재 자신들의 그란투리스모 연구를 현실 세계의 드론 레이싱에 적용시키고 있으며, 시뮬레이션에서 얻은 데이터가 아니라 원본 영상(raw video) 입력을 사용해서 비행할 수 있도록 학습시키고 있다. 지난달 연구팀은 두 명의 세계 챔피언 드론 레이서를 초청하여 컴퓨터와 대결하도록 했다. 스카라무차는 “우리의 AI 레이싱을 보고 있는 그들의 표정을 지켜보는 것이 매우 흥미로웠다”며 “마치 얼이 빠진 것 같았다”고 말했다.

스카라무차는 현실 세계로 도약하는 것이 로봇 공학에서 진정한 발전을 위해 필수적이라고 생각한다. 그는 “시뮬레이션과 실제 세계 사이에는 항상 일치하지 않는 부분이 있을 것”이라며 “사람들은 AI의 엄청난 발전에 관해 말할 때 이 사실을 잊곤 한다. 우리는 아직 AI를 현실 세계에 배치해서 사용할 정도에 도달하지는 못했다”고 말했다.

현재 소니는 게임에 집중하고 있다. 소니는 미래의 그란투리스모 버전에 GT 소피를 탑재할 계획이다. 소니 AI 아메리카의 전무이사 피터 스톤(Peter Stone)은 “우리는 GT 소피가 우리 제품의 일부가 되기를 바란다”며 “소니는 엔터테인먼트 회사이므로 우리는 GT 소피가 게임을 더 재미있게 만들어주기를 바란다”고 말했다.

존스는 더 많은 사람들이 GT 소피의 레이스를 볼 기회를 갖게 된다면 심레이싱 커뮤니티가 GT 소피로부터 많은 것들을 배울 수 있을 것이라고 생각한다. 존스는 이에 대해 “GT 소피의 플레이를 통해서 익숙한 트랙에서 랩타임을 더 줄일 수 있는 획기적인 방법을 배울 수도 있을 것”이라고 설명했다. 미야조노는 이미 GT 소피의 플레이를 참고해서 GT 소피가 코너를 돌 때 사용한 몇 가지 방식을 모방하려고 하고 있다.

존스는 “기준점이 달라지면 모두가 더 발전할 수 있을 것”이라고 말했다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.