This robot dog just taught itself to walk

막 걷는 법을 배운 로봇 개

컴퓨터 시뮬레이션 없이 실제 세상에서 새로운 기술을 습득할 수 있는 AI 로봇이 탄생했다. 시행착오와 강화학습 같은 방법을 사용하는 AI를 이용해서 로봇은 새로운 기술을 배우고 실제 세상의 복잡한 환경에 빠르게 적응할 수 있다.

로봇 개 한 마리가 마치 화가 난 딱정벌레처럼 허공에서 다리를 흔들고 있다. 10분 동안 애를 쓴 후에 로봇 개는 간신히 앞쪽으로 굴러가는 데 성공한다. 그리고 30분 후 로봇은 마치 갓 태어난 송아지처럼 서투르게 첫 발걸음을 내딛는다. 한 시간이 지나자 로봇은 자신 있는 발걸음으로 연구소 여기저기를 돌아다닌다.

다리가 네 개 달린 이 로봇 개에는 특별한 점이 있다. 이 로봇 개가 컴퓨터 시뮬레이션을 통해 무엇을 해야 하는지 보여주지 않았는데도 이 모든 과정을 스스로 학습했다는 점이다. 

캘리포니아대학교 버클리 캠퍼스의 다니자르 하프너(Danijar Hafner)는 원하는 행동에 대해 보상하는 방식으로 알고리즘을 학습시키는 ‘강화학습(reinforcement learning)’이라는 인공지능(AI) 기술을 사용해서 이 로봇 개가 현실 세계에서 걷는 법을 처음부터 배울 수 있도록 학습시켰다. 연구팀은 같은 알고리즘을 사용해서 다른 세 개의 로봇도 성공적으로 학습시켰다. 그중에서 한 로봇은 한쪽 쟁반에서 공을 집어서 다른 쟁반으로 옮기는 법을 배웠다.

기존에는 로봇이 현실 세계에서 무언가를 시도하려면 그 전에 컴퓨터 시뮬레이터를 이용해 학습해야 했다. 예를 들어 캐시(Cassie)라고 불리는 한 쌍의 로봇 다리는 강화학습을 이용해서 스스로 걷는 법을 배웠지만, 이를 위해서 시뮬레이션 학습을 먼저 거쳐야 했다.

이 프로젝트에서 동료 알레한드로 에스콘트렐라(Alejandro Escontrela)와 필리프 우(Philipp Wu)와 함께 연구를 진행했고 이제는 딥마인드(DeepMind)에서 인턴으로 일하고 있는 하프너는 “문제는 시뮬레이터가 현실 세계만큼 정확할 수 없다는 것”이라며, “현실 세계에는 시뮬레이터가 항상 놓치고 있는 부분이 있다”고 말했다. 그는 시뮬레이터에서 배운 내용을 현실 세계에 적용하려면 추가적인 작업이 필요하다고 설명했다.

연구팀이 사용한 드리머(Dreamer)라는 이름의 알고리즘은 과거의 경험을 바탕으로 주변 세상에 관한 모델을 구축한다. 드리머를 이용하면 로봇은 현실 세계와 반대되는 컴퓨터 프로그램에서 자신의 행동에 따라오는 잠재적인 미래의 결과를 예측하여 시행착오 계산을 수행할 수 있다. 이를 통해 로봇은 아무런 준비도 없이 학습하는 것보다 더 빠르게 학습할 수 있다. 로봇은 일단 걷는 법을 배우면 막대기에 걸려서 넘어지지 않으려고 버티는 것처럼 예상하지 못한 상황에 적응하는 법을 계속해서 배울 수 있었다.

뉴욕대학교 컴퓨터과학 전공 조교수이자 로봇공학과 머신러닝(machine learning)을 전공한 레렐 핀토(Lerrel Pinto)는 “시행착오를 통해 로봇을 가르치는 것은 어려운 문제”라며, “시행착오 학습에는 긴 시간이 걸리기 때문에 더 어렵다”고 말했다. 그는 드리머가 심층강화학습(deep reinforcement learning)과 세계모델(world model)을 이용해서 로봇에게 정말 짧은 시간 동안 새로운 기술을 가르칠 수 있다는 것을 보여준다고 말했다.

오리건 주립대학교의 로봇공학 교수 조너선 허스트(Jonathan Hurst)는 아직 동료 검토가 이루어지지 않은 이번 연구 결과가 “강화학습이 로봇 제어의 미래를 위한 초석이 되는 도구가 될 것”이라는 점을 분명히 한다고 말했다.

로봇 학습에서 시뮬레이터를 제거하는 것에는 많은 이점이 있다. 하프너는 알고리즘이 현실 세계에서 기술을 배우고 하드웨어 고장 같은 상황에 적응하는 법을 로봇에게 가르치는 데 유용할 수 있다고 말했다. 예를 들어 로봇은 한쪽 다리에 오작동하는 모터를 가지고도 걷는 법을 배울 수 있다.

에든버러대학교의 인공지능 조교수 스테파노 알브레히트(Stefano Albrecht)는 이 접근법이 복잡하고 비싼 시뮬레이터를 필요로 하는 자율주행 같은 더 복잡한 작업에 대해서도 엄청난 잠재력을 가질 수 있다고 기대감을 표했다. 알브레히트는 새로운 세대의 강화학습 알고리즘이 “현실 세계에서 환경이 작동하는 방식을 매우 빠르게 배울 수 있다”고 말했다.

그러나 핀토는 아직 해결되지 않은 큰 문제들이 있다는 점을 지적했다.

강화학습을 통해 엔지니어들은 어떤 행동이 좋은 것이고 보상이 주어져야 하는지, 어떤 행동이 바람직하지 않은 것인지 코드에서 구체적으로 명시해야 한다. 이번 로봇 개의 경우에는 자세를 뒤집는 것과 걷는 것은 좋은 행동이지만 걷지 않는 것은 좋지 않은 행동이다. 핀토는 “로봇 기술자는 로봇이 해결하기를 원하는 모든 작업이나 문제 각각에 대해 이 작업을 수행해야 한다”고 말했다. 이는 매우 시간이 오래 걸리는 일이다. 그리고 예상치 못한 상황까지 모두 예측해서 모든 행동을 프로그래밍하는 것은 어렵다.

알브레히트는 시뮬레이터가 부정확할 수도 있지만 세계모델도 부정확하다고 말했다. 그는 “세계모델은 무에서 출발하기 때문에 처음에는 모델에서 나오는 예측이 모든 곳에 걸쳐 있을 것”이라고 말했다. 예측을 정확하게 하는 데이터를 확보하려면 시간이 걸린다.

하프너는 미래에 로봇이 음성 명령을 이해하도록 가르치면 좋을 것이라고 말했다. 하프너는 연구팀이 카메라를 로봇 개에 연결하여 로봇 개에 시각을 부여하기를 원한다고도 말했다. 그렇게 되면 로봇 개는 방 안에서 걷거나 물건을 찾고 심지어 가져오는 등 복잡한 실내 상황에서 다양한 작업을 수행할 수 있게 될 것이다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.