Yann LeCun has a bold new vision for the future of AI

얀 르쿤, AI의 미래를 말하다

딥러닝의 대부 중 한 명인 얀 르쿤이 AI를 사람과 비슷한 수준까지 발전시키기 위한 새로운 방식을 제안했다. AI 업계에서 이전에 제시됐던 아이디어들을 모아서 재구성한 그의 제안은 흥미롭기도 하지만 많은 의문을 불러일으키기도 한다.

약 1년 반 전에 얀 르쿤(Yann LeCun)은 자신의 생각이 잘못됐다는 것을 깨달았다.

메타(Meta)의 인공지능(AI) 연구소 수석 과학자이자 세계에서 가장 영향력 있는 AI 연구자인 르쿤은 당시에 세상이 돌아가는 이치에 관한 기본적인 지식을 기계에 가르치기 위해 노력하고 있었다. 다시 말해서 일종의 ‘상식’을 AI에 가르쳐보겠다는 생각이었다. 이를 위해 그가 사용한 방법은 신경망(neural network)이 일상적인 사건에 관한 짧은 영상을 보고 다음에 무슨 일이 벌어질지 예측할 수 있도록 학습시키는 것이었다. 그러나 영상을 보고 다음에 올 프레임을 픽셀 단위로 세세하게 추측하는 것은 너무 복잡한 일이었다. 결국 그는 벽에 부딪히게 되었다.

르쿤은 몇 달에 걸쳐 자신이 그동안 무엇을 놓치고 있었는지 파악했다. 그러고 나서 이제 그는 다음 세대 AI를 위해 대담한 새 비전을 제시했다. MIT 테크놀로지 리뷰에 공유한 초안 문서에서 르쿤은 기계가 세상을 헤쳐나가는 데 필요한 상식을 배울 방법을 개략적으로 설명했다. 그의 제안이 담긴 문서는 현재 온라인에 공개되어 있다.

르쿤은 문서에 담은 제안들이 사람처럼 추론하고 계획할 수 있는 기계를 만드는 방향으로 나아가는 첫걸음이라고 생각한다. 사람과 비슷한 추론 능력을 가진 이러한 기계를 많은 이들은 인공일반지능(artificial general intelligence, 이하 ‘AGI’)이라고 부른다. 그는 또한 오늘날 가장 인기 있는 몇 가지 머신러닝(machine learning) 트렌드에서 벗어나 구식이라고 여겨졌던 오래된 아이디어들을 부활시켰다.

그러나 르쿤이 제시한 비전은 완벽하지 않다. 실제로 그의 제안을 보면 해답보다는 의문이 더 많이 떠오를지도 모른다. 르쿤이 스스로 지적했듯이 이번 제안의 가장 큰 문제는 르쿤 본인도 자신이 설명하고 있는 개념을 실제로 어떻게 구현할 수 있을지 모른다는 것이다.

르쿤이 제시한 새로운 접근법의 핵심은 세상을 다양한 세부 수준(level of detail)으로 학습할 수 있는 신경망이다. 픽셀 단위의 완벽한 예측이 필요했던 기존의 방식을 버린 이 신경망은 처리해야 하는 작업과 관련된 장면의 특징에만 초점을 맞춘다. 르쿤은 이러한 핵심 신경망과 ‘컨피규레이터(configurator)’라고 부르는 다른 신경망을 짝지어 사용하는 방법을 제안했다. 컨피규레이터는 어느 정도의 세부 수준의 필요한지 결정하고 그에 따라 전체적인 시스템을 조정하는 역할을 한다.

르쿤은 AGI가 결국에는 우리가 미래 기술과 상호작용하는 방식의 일부가 될 것이라고 생각한다. 그의 비전에는 가상현실 메타버스(metaverse)를 강력하게 지지하는 그의 고용주 메타의 비전도 엿보인다. 르쿤은 10년에서 15년쯤 후에는 사람들이 주머니에 스마트폰을 넣고 다니는 대신 자신들을 안내할 가상 어시스턴트(virtual assistant)가 장착된 ‘증강현실 안경’을 들고 다닐 거라고 말했다. 그는 “그러한 증강현실 안경이 유용하게 사용되려면 가상 어시스턴트가 거의 인간에 가까운 지능을 가져야 한다”고 설명했다.

몬트리올대학교의 AI 연구원이자 밀라퀘벡 연구소(Mila-Quebec Institute)의 과학 책임자 요슈아 벤지오(Yoshua Bengio)는 “얀은 이러한 아이디어 대부분을 오랫동안 이야기해왔다”며, “하지만 이번 기회를 통해 그의 여러 아이디어를 하나의 큰 그림 속에서 살펴보는 것도 괜찮다고 생각한다”고 말했다. 벤지오는 르쿤이 올바른 질문을 던지고 있다고 생각한다. 그는 또한 르쿤이 해답이 거의 없는 문서를 기꺼이 공개한 것을 대단하게 여긴다. 그는 르쿤의 제안이 어떤 분명한 연구 결과라기보다는 연구 제안서에 가깝다고 설명했다.

벤지오는 “사람들은 이런 생각을 보통 개인적으로 이야기할 뿐 공개적으로 공유하지는 않는다”고 말하며, “위험성이 크기 때문”이라고 덧붙였다.

상식의 문제

르쿤은 거의 40년 동안 AI에 관해 생각해왔다. 2018년에 그는 딥러닝(deep learning)에 관한 선구적인 연구를 통해 벤지오와 제프리 힌턴(Geoffrey Hinton)과 함께 컴퓨팅과 관련한 최고상인 튜링상(Turing Award)을 공동 수상했다. 그는 “기계가 사람이나 동물처럼 행동하도록 만드는 것이 내 인생의 목표”라고 밝혔다.

르쿤은 동물의 뇌가 세상에 대한 일종의 시뮬레이션을 실행한다고 생각한다. 그는 이러한 시뮬레이션을 ‘세계모델(world model)’이라고 부른다. 세계모델을 유아기에 학습하고 나면 사람을 포함한 동물들은 주변에 어떤 일이 벌어지고 있는지 제대로 추측할 수 있다. 르쿤은 아기가 주변 세상을 관찰하며 인생의 처음 몇 달 동안 삶에 필요한 기본적인 것들을 습득한다고 설명했다. 공이 바닥으로 떨어지는 모습을 몇 번 보고 나면 아이들은 중력이 어떻게 작동하는지에 관해 느낄 수 있게 된다.

‘상식’이란 이런 종류의 직관적인 추론을 모두 아우르는 용어이다. 상식에는 간단한 물리학을 이해하는 것도 포함된다. 예를 들어 세상이 삼차원이라는 것을 인식하고 물체가 시야에 보이지 않더라도 실제로는 사라지지 않았다는 사실을 알게 되는 것이다. 상식을 통해 우리는 또한 공이 어디로 튈지, 질주하는 오토바이가 몇 초 후에 어디에 도달할지 예측할 수 있다. 그리고 상식은 우리가 불완전한 정보의 조각들을 서로 연결하는 데 도움을 준다. 우리가 주방에서 금속이 충돌하는 소리를 듣는다면 경험을 통해 우리는 누군가가 냄비를 떨어뜨렸다고 추측할 수 있을 것이다. 왜냐하면 우리는 어떤 종류의 물체가 그런 소음을 만드는지, 언제 그런 소음이 생기는지 잘 알고 있기 때문이다.

간단히 말해서 상식을 통해 우리는 어떤 사건이 가능하거나 불가능한지 알 수 있을 뿐만 아니라 일어날 가능성이 더 큰 사건이 어떤 것인지도 예측할 수 있다. 상식을 바탕으로 우리는 행동의 결과를 예측하고 계획을 세울 수 있으며 관련 없는 세부 사항은 무시할 수 있다.

그러나 기계에 상식을 가르치기는 어렵다. 오늘날 신경망이 상식과 관련된 그러한 패턴을 발견하게 하려면 그 전에 신경망에 수천 개의 예를 미리 보여줘야 한다.

많은 면에서 상식은 다음에 어떤 일이 벌어질지 예측하는 능력에 해당한다. 르쿤은 “상식은 지능의 본질”이라고 말했다. 그렇기 때문에 르쿤과 동료 연구원들이 모델을 학습시키는 데 영상을 사용했던 것이다. 그러나 기존의 머신러닝 기술에서는 모델이 영상의 다음 프레임에 어떤 일이 벌어질 것인지 정확하게 예측해서 답을 픽셀 단위로 생성해야 했다. 이는 매우 어려운 일이다. 르쿤은 우리가 펜을 하나 들고 있다가 놔버렸다고 생각해보자고 말했다. 상식을 통해 우리는 펜이 바닥으로 떨어질 것임을 알고 있다. 하지만 어디에 떨어질지 정확한 위치는 알 수 없다. 만약 그 위치를 정확히 예측하려면 매우 어려운 물리 방정식을 사용해야 할 것이다.

그렇기 때문에 르쿤이 세상의 모든 것이 아니라 관련 있는 부분에만 집중할 수 있는 신경망을 학습시키기 위해 노력하고 있는 것이다. 그러면 펜이 바닥에 떨어진다는 것은 예측할 수 있지만 정확히 어디에 떨어질지는 예측할 필요가 없을 것이다. 르쿤은 이런 식으로 학습한 신경망을 동물들이 의존하는 세계모델과 동등한 것으로 본다.

의문의 재료

르쿤은 기본적인 물체 인식을 할 수 있는 초기 버전의 세계모델을 개발했다고 말했다. 그는 이제 이 세계모델이 상황을 예측할 수 있도록 학습시키는 일을 하고 있다. 그러나 그는 컨피규레이터가 어떻게 작동해야 하는지는 여전히 의문으로 남아있다고 말했다. 르쿤은 컨피규레이터가 전체 시스템을 제어하는 역할을 할 거라고 생각한다. 컨피규레이터는 세계모델이 주어진 시간 안에 어떤 종류의 예측을 내려야 할지 결정하고 그러한 예측을 가능하게 하려면 어떤 세부 수준에 초점을 맞춰야 할지 결정하면서 필요에 따라 세계모델을 조절한다.

르쿤은 컨피규레이터 같은 무언가가 필요하다고 확신하지만, 신경망이 그런 역할을 하게 하려면 어떻게 학습시켜야 할지에 대해서는 방법을 알지 못한다. 그는 “우리는 이러한 작업을 가능하게 할 좋은 방법을 찾아야 하지만 아직은 방법을 모른다”고 말했다.

르쿤의 비전에서 세계모델과 컨피규레이터는 다른 신경망을 포함하는 ‘인지 아키텍처(cognitive architecture)’의 두 가지 핵심 요소이다. 이 시스템에 포함되는 신경망에는 세상을 감지하는 지각 모델과 AI가 행동을 탐색하거나 억제하게 만들기 위해 보상을 사용하는 모델 등이 있다.

르쿤은 각각의 신경망이 뇌의 영역들과 유사하다고 설명했다. 예를 들어 컨피규레이터와 세계모델은 전전두피질(prefrontal cortex)의 기능을 모방하기 위한 것이며 동기부여 모델은 편도체의 특정 기능에 상응한다.

이런 식으로 뇌에서 영감을 받은 인지 아키텍처 개념은 수십 년 동안 존재해왔다. 다양한 세부 수준을 가진 모델을 예측에 사용한다는 르쿤의 아이디어 대부분도 마찬가지다. 그러나 딥러닝이 AI 분야에서 지배적인 방식이 되면서 이러한 아이디어들은 시대에 뒤처진 생각으로 여겨지기 시작했다. 르쿤은 “AI를 연구하는 사람들이 이런 개념들을 약간은 잊어버렸을 것”이라고 말했다.

르쿤이 한 일은 이러한 오래된 아이디어들을 부활시켜서 딥러닝과 결합할 수 있는 방법을 제시한 것이다. 르쿤은 이러한 아이디어의 부활이 필수적인 일이라고 생각한다. 현대 AI 분야에서 지배적인 두 가지 접근법이 막다른 골목에 다다랐다고 생각하고 있기 때문이다.

AI의 미래는?

범용 AI 구축과 관련해서 크게 두 개의 진영이 있다. 한쪽 진영에서는 규모가 더 큰 모델을 계속 만들다 보면 범용 AI에 가까워질 수 있다고 생각한다. 이러한 주장을 옹호하는 연구자들은 GPT-3DALL-E 같은 대형언어모델 또는 이미지 생성 모델의 성공이 자신들의 주장을 뒷받침한다고 믿는다.

다른 진영에서는 특정 행동에 보상을 하여 신경망이 시행착오를 통해 학습하도록 하는 ‘강화학습(reinforcement learning)’ 기법을 옹호한다. 강화학습은 딥마인드(DeepMind)가 게임을 플레이하는 알파제로(AlphaZero) 같은 AI들을 학습할 때 사용했던 방식이다. 강화학습 옹호자들은 올바른 보상이 주어진다면 결국에는 강화학습을 통해 AGI를 만들 수 있을 거라고 생각한다.

르쿤은 이 두 가지 생각에 모두 반대한다. 그는 “현재 대형언어모델의 규모만 더 키우다 보면 결국에 인간과 비슷한 수준의 AI가 탄생할 것이라는 주장을 단 한 순간도 믿어본 적이 없다”고 밝혔다. 그는 이러한 대형 모델들이 단순히 단어와 이미지를 흉내 내고 있을 뿐이라고 지적했다. 그러한 모델들은 세상에 대한 직접적인 경험이 전혀 없다는 것이다.

그는 마찬가지로 강화학습에도 회의적이다. 강화학습 방식을 사용하려면 모델에게 간단한 작업만 학습시킨다고 해도 방대한 데이터가 필요하다. 르쿤은 “나는 그런 방식은 성공 가능성이 없다고 생각한다”고 밝혔다.

알파제로 연구를 주도했고 강화학습을 옹호하는 딥마인드의 데이비드 실버(David Silver)는 이러한 의견에 동의하지 않지만, 르쿤이 제시한 전체적인 비전에 대해서는 긍정적이다. 그는 “그의 비전은 세계모델이 어떻게 구현되고 학습될 수 있는지 보여주는 흥미진진한 새 제안”이라고 평했다.

산타페연구소(Santa Fe Institute)의 AI 연구원 멜라니 미첼(Melanie Mitchell)도 르쿤의 아이디어에 흥미를 보였다. 미첼은 “이러한 아이디어가 딥러닝 커뮤니티에서 나온 것은 처음”이라고 말했다. 그녀는 대형언어모델이 정답이 아니라는 르쿤의 생각에 동의한다. 그녀는 “대형언어모델은 실제로 정말 중요한 부분인 세계에 대한 내부 모델과 기억력이 부족하다”고 말했다.

하지만 구글브레인(Google Brain)의 연구원 나타샤 자크스(Natasha Jaques)는 그래도 언어모델이 역할을 해야 한다고 생각한다. 그녀는 르쿤의 제안에서 언어가 완전히 배제된 것은 이상하다고 지적하면서, “우리는 대형언어모델이 매우 효과적이며 수많은 인간의 지식을 활용한다는 사실을 알고 있다”고 덧붙였다.

AI들이 서로 정보와 능력을 공유하는 방법을 연구하는 자크스는 인간이 무언가를 배울 때 직접적인 경험이 꼭 필요한 것은 아니라는 점을 언급했다. 우리는 뜨거운 냄비를 직접 만지지 않더라도 그렇게 하지 말라는 말만 듣고 행동을 고칠 수 있다. 그녀는 “언어가 없다면 얀이 제안하는 이 세계모델을 어떻게 업데이트할 수 있겠는가?”라고 물었다.

또 다른 문제도 있다. 르쿤의 아이디어가 실현되면 인터넷처럼 다양하게 활용될 수 있는 강력한 기술이 탄생하게 될 것이다. 그러나 그의 제안에는 그가 제시한 모델의 행동이나 동기를 통제할 방법이나 통제할 수 있는 주체에 관한 논의가 빠져있다. 몬트리올 AI 윤리 연구소(Montreal AI Ethics Institute)의 설립자이자 보스턴컨설팅그룹(Boston Consulting Group)의 책임감 있는 AI(responsible-AI) 전문가 아비셰크 굽타(Abhishek Gupta)는 그런 내용이 누락된 것이 매우 이상하다고 지적했다.

굽타는 “우리는 AI가 사회에서 잘 기능하기 위해서 무엇이 필요한지 생각해야 하며, 그러면 다른 것보다도 윤리적인 행동에 대해 생각할 필요가 있다”고 말했다.

그러나 자크스는 르쿤의 제안이 당장 실용적으로 적용될 수 있는 것이라기보다는 여전히 그냥 아이디어에 불과하다는 점을 언급했다. 미첼도 같은 입장을 보였다. 미첼은 “르쿤의 아이디어를 바탕으로 빠른 시일 내에 인간 수준의 AI가 만들어질 가능성은 거의 없다”고 말했다.

르쿤도 이런 생각에 동의할 것이다. 그의 목적은 다른 사람들이 발전시키기를 희망하며 새로운 접근법을 제시하는 것이다. 르쿤은 “여기에는 많은 사람의 많은 노력이 필요하다”며, “결국에는 이것이 우리가 나아가야 할 방향이라고 생각했기 때문에 이 제안을 내놓은 것”이라고 밝혔다. 그는 적어도 대형언어모델과 강화학습이 앞으로 사용할 수 있는 유일한 방법이 아니라는 점을 사람들에게 이해시키고자 했다.

그는 “나는 사람들이 시간을 낭비하는 모습을 보고 싶지 않다”고 밝혔다. (By Melissa Heikkilä & Will Douglas Heaven)

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.