This could lead to the next big breakthrough in common sense AI

상식을 가진 AI를 만들 수 있을까

연구진은 AI가 세상을 이해할 수 있도록 ‘눈으로 보는’ 방법을 훈련시키고 있다.

수도 없이 들어보았을 것이다. 사람의 언어와 기묘하게 비슷한 말을 쏟아내는 거대한 인공지능 GPT-3의 경이로움에 대해서 말이다. 동시에 GPT-3는 신기루 같기도 하다. 어느 쪽인지 판단할 수 있는 간단한 방법이 있다. GPT-3에 양이 무슨 색이냐고 물어보면 “흰색”만큼이나 “검정색”이라고 대답하는 경우가 많다. 바로 “검은 양”이라는 표현 때문이다.

언어 모델의 문제는 바로 여기에 있다. 언어 모델은 텍스트로만 훈련되기 때문에, 상식이 결여되어 있다. 최근 노스캐롤라이나주립 채플힐대학 연구팀은 이런 문제를 해결하기 위해 새로운 기술을 고안해냈다. 이 기술을 보큰화(Vokenization)라고 하는데, GPT-3 같은 언어 모델에게 ‘보는’ 능력을 제공한다.

언어 모델과 컴퓨터 비전을 결합하려는 노력은 이번이 처음이 아니다. 이 시도는 실제로 AI 연구에서 급성장하는 분야다. 두 가지 유형의 AI는 서로 다른 강점을 보유하고 있다는 생각에서 비롯되었다. GPT-3 같은 언어 모델은 비지도학습(Unsupervised Learning)을 통해 훈련되는데, 수동 데이터 라벨링(Manual Data Labeling)이 필요하지 않아서, 확장이 간편하다. 반면에 객체 인식 시스템(Object Recognition System) 같은 이미지 모델은 현실에서 더 직접적으로 배운다. 즉, 이미지 모델은 텍스트가 제공하는 세상을 추상화시켜서 이해하지 않는다. 이미지 모델은 양의 사진에서 양이 실제로 하얀색이라는 것을 ‘볼’ 수 있다.

언어 입력과 시각 입력을 모두 분석할 수 있는 AI 모델도 활용도가 높다. 로봇 도우미를 만들려면, 세계를 항해할 수 있는 컴퓨터 비전과 사람과 소통할 수 있는 언어가 필요하다.

그러나 두 가지 유형의 AI를 결합하기란 말처럼 쉽지 않다. 기존의 언어 모델을 기존의 객체 인식 시스템과 연결하는 것만큼 간단하지 않다. 텍스트와 이미지를 포함한 데이터 세트(시각-언어 데이터 세트)를 사용하여 새로운 모델을 처음부터 교육해야 한다.

이러한 데이터 세트를 선별하는 가장 일반적인 접근 방법은 간략한 설명이 달린 이미지를 모으는 것이다. 예를 들어, 아래와 같은 사진은 “주홍빛이 도는 고양이 한 마리가 여행가방에 앉아 있다”라는 설명이 붙는다. 이것은 “고양이” 같이 하나의 명사만으로 똑같은 사진에 라벨을 붙이는 일반적인 이미지 데이터 세트와 다르다. 따라서 시각-언어 데이터 세트는 동사와 전치사를 사용하여 AI 모델에게 물체를 인식하는 방법뿐만 아니라 물체가 서로 어떻게 관련되고 작용하는지를 가르칠 수 있다.

하지만 여러분은 왜 이 데이터 큐레이션(Data Curation) 과정이 오래 걸리는지 알 수 있다. 기존의 시각-언어 데이터 세트가 이렇게 약할 수 밖에 없는 이유다. 영어 위키백과 같은 대중적인 텍스트 전용 데이터 세트(실제로 거의 모든 영어 위키백과 항목을 포함)는 약 30억 개의 단어를 포함할 수 있다. MS COCO(Microsoft Common Objects in Context)같은 시각-언어 데이터 세트는 7백만 개 단어만 포함하고 있어서 AI 모델을 훈련시키기에는 데이터가 충분하지 않다.

“보큰화”는 MS COCO에 있는 소량의 데이터를 영어 위키백과 규모로 확장하기 위해 비지도학습을 활용하여 문제를 극복한다. 이렇게 탄생한 시각-언어 모델은 오늘날 AI 언어 이해도 평가를 위해 사용되는 가장 까다로운 몇몇 테스트에서 첨단 모델을 능가한다.

자연어 처리 스타트업 허깅 페이스(Hugging Face)의 공동 창업자 겸 최고과학책임자(CSO)인 토마스 울프(Thomas Wolf)는 “조금만 노력해서는 이런 테스트에서 첨단 모델을 이길 수 없다. 단순한 장난감 테스트가 아니다. 그래서 엄청 재밌다”고 말한다. 울프는 본 연구에는 참여하지 않았다.

토큰에서 보큰으로

우선 몇 가지 용어를 정리해 보자. 도대체 보큰(Voken)은 무엇인가?

AI에서는 언어 모델 훈련에 사용되는 단어를 토큰이라고 한다. 그래서 노스캐롤라이나대 연구팀은 시각-언어 모델에서 각각의 토큰과 관련된 이미지를 보큰이라고 부르기로 했다. 보크나이저(Vokenizer)는 토큰마다 보큰을 찾는 알고리즘이며, 보큰화(Vokenization)는 전체 프로세스를 의미한다.

보큰화의 핵심은 AI 연구진이 얼마나 단어 조합을 좋아하는지 보여주기 위함이 아니다. 기본적인 생각을 정리하는데도 유용하다. 노스캐롤라이나대 연구팀은 이미지 데이터 세트에서 시작하여 캡션을 직접 작성하는 대신에, 언어 데이터 세트에서 시작하였고, 비지도학습을 활용하여 단어마다 관련 이미지를 매칭시켰다. 이 과정은 확장성이 매우 높다.

비지도학습 기법은 여기서 궁극적으로는 이번 논문의 성과다. 각 단어에 대한 관련 이미지를 실제로 어떻게 찾을 것인가?

보큰화

GPT-3 얘기로 잠깐 돌아가보자. GPT-3는 트랜스포머로 알려진 언어 모델 계열의 일부로서 2017년 첫 도입 당시 자연어 처리에 비지도학습을 적용하는 데 커다란 돌파구를 제시하였다. 트랜스포머는 단어가 문맥에서 어떻게 사용되는지를 관찰한 다음, 문맥에 따라 “단어 임베딩(Word Embedding)”으로 알려진 각 단어의 수학적 표현을 만들어냄으로써 인간 언어 패턴을 학습한다. 예를 들어, “고양이”라는 단어의 임베딩은 “야옹”과 “주홍”이라는 단어 주변에서 자주 사용되지만 “멍멍”이나 “파란”이라는 단어에서는 덜 사용된다는 것을 보여줄 수 있다.

이런 방식으로 트랜스포머는 단어 의미의 근사값을 구할 수 있고, GPT-3는 인간다운 문장을 구사할 수 있다. 단어를 문장으로, 문장을 단락으로 구성하는 방법을 알려주기 위해 부분적으로 이러한 임베딩에 의존한다.

이미지에도 사용 가능한 병렬 기법이 있다. 단어 사용 패턴을 알아내기 위해 텍스트를 스캔하는 대신 이미지에서 시각 패턴을 스캔한다. 고양이가 침대나 나무 위에 얼마나 자주 출몰하는지 도표로 나타내었고, 이런 맥락 정보를 바탕으로 “고양이” 임베딩을 만든다.

노스캐롤라이나대 연구진은 MS COCO에 두 가지 임베딩 기술을 모두 사용해야 한다는 통찰력을 보여주었다. 임베딩 기술은 이미지를 시각 임베딩으로, 캡션을 단어 임베딩으로 변환했다. 정말 탁월한 부분은 이 임베딩이 3차원 공간에서 그래프로 그려질 수 있고, 말 그대로 서로 어떻게 연관되어 있는지 알 수 있다는 점이다. 단어 임베딩과 밀접하게 관련된 시각 임베딩이 그래프에 더 잘 보일 것이다. 즉, 고양이 시각 임베딩은 (이론적으로) 텍스트 기반 고양이 임베딩과 겹친다.

상황이 어떻게 흘러가는 지 보인다. 임베딩이 모두 그래프화 되고 서로 비교/연관되면 이미지(보큰)와 단어(토큰)를 매칭하기는 쉽다. 여기서 기억해야 할 것은 이미지와 단어가 임베딩을 토대로 매칭되기 때문에, 문맥에 따라서도 매칭이 가능하다는 점이다. 그래서 한 단어에 전혀 다른 의미가 있을 때 유용하다. 이 기술은 단어의 용례마다 다른 보큰을 찾아냄으로써 성공적으로 처리한다.

여기 그녀의 연락처가 있다.
어떤 고양이들은 사람과의 접촉을 좋아한다.

토큰은 두 가지 예에서 모두 “contact”라는 단어다. 그러나 첫 번째 문장에서는 문맥상 contact가 연락처를 의미하므로, 보큰은 연락처 아이콘이다. 두 번째 문장에서 contact는 접촉을 뜻하므로, 보큰은 고양이를 쓰다듬는 이미지를 보여준다.

연구진은 보크나이저 알고리즘을 훈련시키기 위해 MS COCO로 만든 시각 임베딩과 단어 임베딩을 사용했다. 일단 훈련을 시키면, 보크나이저는 영어 위키백과에서 토큰에 해당하는 보큰을 찾을 수 있었다. 완벽하지는 않았다. 알고리즘은 토큰의 약 40%에 대해서만 보큰을 찾았다. 총 약 30억 단어 데이터 세트 중 40%에 해당한다.

새로운 데이터 세트를 이용하여, 연구진은 GPT-3보다 앞서 구글이 개발한 오픈소스 트랜스포머인 BERT라는 언어 모델을 재훈련시켰다. 그리고 나서 연구진은 6개의 다른 언어 이해도 테스트에서 새로 업그레이드된 BERT를 시험했다. 여기에는 일련의 기사를 보여주고 독해 문제에 답할 것을 주문하는 SQuAD(Stanford Question Answering Dataset)와 단순한 흉내내기와 암기가 아닌지 확인하기 위해 영어의 까다로움을 이용하여 모델의 실수를 유도하는 SWAG이 포함되었다. 업그레이드된 BERT는 모든 테스트에서 좋은 성적을 거뒀는데, 토마스 울프는 만만히 넘길 일은 아니라고 평했다.

이 연구를 진행한 박사과정학생 하오 탄(Hao Tan)과 지도교수 모힛 반살(Mohit Bansal)은 자연어 처리의 경험적 방법(EMNLP: Empirical Methods in Natural Language Processing)에 관한 컨퍼런스에서 새로운 보큰화 기법을 발표할 예정이다. 아직은 초기 단계지만, 울프는 이 작업을 시각-언어 모델을 위한 비지도학습에서 중요한 개념적 돌파구로 생각한다. 자연어 처리를 비약적으로 발전시키는데 기폭제가 됐을 때와 비슷한 수준이다.

“최근 2년 사이에 자연어 처리에서 이렇게 엄청난 약진이 있었고, 갑자기 많은 진전이 벌어지면서 다른 AI 분야를 앞지르기 시작했다. 하지만 텍스트와 다른 것을 연결하는 문제가 있다. 그래서 말할 수는 있지만, 보지도 못하고 듣지도 못하는 로봇 같다”고 울프는 전했다.

“이번 논문은 텍스트를 다른 방식으로 연결시켰고, 그 결과 더 효과가 크다는 것을 보여주는 사례다. 강력한 언어 모델을 로봇에 적용하고 싶을 때, 이런 기술이 활용될 수 있다. 로봇의 감각과 텍스트를 연결시켜서, 로봇이 세상을 더 잘 이해할 수 있도록 만들 수 있기 때문이다”고 언급했다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.