These virtual robot arms get smarter by training each other

서로 가르치며 배우는 인공지능 가상 로봇 팔

오픈AI는 인공지능이 서로 상대방을 이기려 경쟁하는 게임을 하게 함으로써, 재훈련 없이도 다양한 문제를 해결하는 법을 학습할 수 있는 로봇을 만들려 한다.

블록 쌓기, 테이블 정리, 체스 말 배열 등 다양한 임무를 해결하는 법을 터득한 가상 로봇 팔이 나왔다. 각각의 과제 수행을 위해 다시 훈련을 받을 필요도 없다. 다른 로봇 팔이 계속 보다 어려운 과제를 주어 수행하도록 하는 방식으로 이 로봇 팔을 훈련시켰다.

자기와의 대결(Self play) : 오픈AI 연구진이 개발한 쌍둥이 로봇 팔, 앨리스와 밥은 사람이 따로 데이터를 입력하지 않아도 시뮬레이션으로 서로 게임을 하며 학습한다. 이들은 특정 목표를 달성하기 위해 어떤 상황에서 어떤 행동을 해야 하는지 시행착오를 통해 훈련하는 강화학습(Reinforcement Learning) 기술을 활용했다. 로봇들은 가상 테이블 위에 있는 물체를 움직이는 작업 등이 포함된 게임을 했다. 앨리스는 특정 방식으로 사물을 배열해 가며 밥이 해결하기 어려운 퍼즐을 낸다. 밥은 앨리스가 낸 퍼즐을 해결한다. 학습이 진행됨에 따라 앨리스는 더 복잡한 퍼즐을 내고, 밥은 점점 더 퍼즐을 잘 풀게 된다.

앨리스가 설정한 블록 퍼즐로 훈련을 받으면, 밥은 테이블 정리, 체스 배열 등 여러 가지 일반적인 작업도 할 수 있게 된다.

멀티태스킹 : 보통 딥러닝 모델이 새로운 작업을 하려면 다시 훈련을 받아야 한다. 알파제로(AlphaZero)는 – 알파제로 역시 자신과 대결하며 학습하는 인공지능이다 – 단일 알고리즘을 이용하여 체스와 장기, 바둑을 배우는데, 한 번에 한 가지 게임만 할 수 있다. 체스를 하는 알파제로는 바둑을 할 수 없고, 바둑을 두는 알파제로는 체스를 할 수 없다. 한 번에 여러 작업이 가능한 기계를 개발하는 것은 일반 인공지능으로 가는 단계에서 아직 해결되지 않은 중요한 과제다.

AI 훈련장 : 문제는 다중 작업이 가능하도록 AI를 훈련시키려면 수많은 학습 사례가 필요하다는 점이다. 오픈AI는 앨리스를 훈련시켜 밥에게 사례를 생성하도록 하여 이 문제를 해결했다. 하나의 AI를 다른 AI 훈련에 이용한 것이다. 앨리스는 블록으로 탑 쌓기, 블록 들기, 균형 유지 같은 목표를 제시하는 법을 학습했다. 밥은 마찰 같은 (가상) 환경의 속성을 이용하여 물체를 잡고 돌리는 법을 훈련했다.

가상 현실 : 지금까지 이 방식은 시뮬레이션으로만 테스트되었다. 그러나 오픈AI를 비롯한 관련 연구자들은 가상 환경에서 훈련된 모델을 물리적 환경으로 전환하는 데 점점 더 능숙해지고 있다. AI는 시뮬레이션을 통해 짧은 시간에 대량의 데이터세트를 돌린 다음, 현실 세계에 적합하도록 조정된다.

연구의 목표 : 연구의 최종 목표는 로봇을 훈련시켜 사람이 요구하는 어떤 임무든 해결하게 하는 것이다. 다양한 방식으로 언어를 사용하는 언어모델 GPT-3와 마찬가지로 로봇 팔은 여러 작업이 가능한 AI를 개발하려는 오픈AI의 야심찬 계획의 일환이다. AI로 다른 AI를 훈련시키는 것이 이 계획의 핵심이 될 것이다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.