DeepMind says its new language model can beat others 25 times its size

딥마인드, 외부메모리를 사용하는 새로운 방식의 언어모델 발표

딥마인드가 기존 언어모델과 다른 방식을 사용하는 언어모델을 개발했다. 딥마인드의 언어모델 ‘RETRO’는 필요한 내용을 전부 기억하는 대신 외부메모리를 사용하여 필요할 때마다 구문을 검색하는 방식을 사용한다. 이를 통해 언어모델 구축 비용을 상당히 절약할 수 있다.

오픈AI가 언어모델 GPT-3를 발표한 이래로 지난 2년 동안 전 세계에서 가장 유명한 인공지능(AI) 연구소들이 자체적인 언어모델을 개발해왔다. 구글, 메타, 마이크로소프트, 그리고 몇 개의 중국 회사들까지 모두 그럴듯한 텍스트를 생성하고, 인간과 대화를 나눌 수 있으며, 질문에 답할 수 있는 AI를 개발했다.

엄청난 크기의 신경망(neural network)을 기반으로 하기 때문에 ‘대형언어모델(large language model, LLM)’이라고 불리는 이러한 언어모델들은 AI 업계의 지배적인 트렌드가 되었고, 언어를 사용하는 기계의 놀라운 능력 같은 강점과 AI에 내재된 편견과 지속 불가능할 정도의 컴퓨팅 파워를 사용하는 것 같은 약점을 모두 드러냈다.

지금까지는 이러한 상황에 영국의 AI 기업 딥마인드(DeepMind)가 부재한 것이 약간 의아하게 느껴졌다. 그러나 12월 둘째 주에, 알파제로(AlphaZero)와 알파폴드(AlphaFold) 등 AI 업계에서 가장 인상적인 성과를 이루어낸 바 있는 딥마인드가 언어모델에 관한 세 개의 대형 연구를 가지고 마침내 언어모델 시장에 진입했다. 딥마인드의 연구 결과에서 가장 주목할만한 부분은 기존과 다른 방식을 도입한 언어모델이다. 이들이 개발한 언어모델은 텍스트 구문들을 포함하고 있는 거대한 데이터베이스 형태의 외부메모리를 이용해 성능을 개선했다. 이 언어모델은 새로운 문장을 생성할 때 이러한 외부메모리를 마치 커닝 노트처럼 사용할 수 있다.

‘RETRO(레트로, Retrieval-Enhanced Transformer)’라는 명칭의 이 AI는 외부메모리 활용을 통해 자체 신경망 규모의 25배에 필적하는 성능을 보이면서 초대형 모델을 훈련시키는 데 필요한 시간과 비용을 줄여준다. 연구자들은 또한 외부 데이터베이스를 이용하면 AI가 학습했던 것을 더 쉽게 분석할 수 있으므로, 언어모델에서 편향이나 나쁜 표현을 필터링하는 데 도움이 될 것이라고 주장한다.

딥마인드의 대형언어모델 연구팀을 이끄는 잭 레이(Jack Rae)는 “모든 것을 기억하는 대신에 필요할 때마다 그때그때 검색해서 찾을 수 있다면 인간에게와 마찬가지로 AI에도 더 유용할 수 있을 것”이라고 설명했다.

언어모델은 문장이나 대화에서 다음에 어떤 단어가 올지 예측하면서 텍스트를 생성한다. 모델이 더 커질수록 학습 과정에서 배울 수 있는 정보가 더 많아지며, 그러면 예측도 더 정확해질 수 있다. GPT-3는 1,750억 개의 파라미터(parameter, 언어모델이 학습할 수 있도록 데이터를 저장하고 조정하는 신경망의 값)를 가지고 있다. 마이크로소프트의 언어모델 메가트론(Megatron)의 파라미터 수는 5,300억 개이다. 그러나 대형모델은 학습하는 데 엄청난 양의 컴퓨팅 파워를 사용하기 때문에 아주 돈이 많은 기업을 제외하고는 운용하기가 거의 불가능하다.

RETRO를 이용해서 딥마인드는 AI가 학습하는 양은 줄이지 않은 채 학습 비용만 줄이고자 했다. 연구자들은 뉴스 기사, 위키피디아 페이지, 책, 그리고 온라인 코드 저장소인 깃허브(GitHub)에서 가져온 텍스트 등 엄청난 양의 다양한 데이터 세트로 언어모델을 학습시켰다. 이 데이터 세트는 영어, 스페인어, 독일어, 프랑스어, 러시아어, 중국어, 스와힐리어, 우르두어 등 10개 언어의 텍스트를 포함한다.

RETRO의 신경망은 70억 개의 파라미터만을 가지고 있다. 그러나 거의 2조 개에 달하는 텍스트 구문을 포함하고 있는 데이터베이스를 사용하면서 부족한 파라미터 수를 만회한다. 데이터베이스와 신경망은 동시에 학습시켰다.

RETRO는 텍스트를 생성할 때, 생성하고 있는 텍스트와 비슷한 구문을 데이터베이스에서 검색하고 비교하면서 더 정확한 예측을 할 수 있다. 신경망의 메모리 일부를 데이터베이스에 위탁한 덕분에 RETRO는 적은 자원으로 더 많은 것을 해낼 수 있는 것이다.

이러한 아이디어 자체는 새로운 것이 아니지만, 대형언어모델에서 검색 시스템이 개발된 것은 처음이며, 이러한 방식으로 만들어진 결과물이 최고의 언어 AI들과 성능 경쟁을 벌인 것도 처음이다.

크기가 크다고 항상 더 나은 것은 아니다

RETRO는 이번에 딥마인드가 발표한 두 개의 다른 연구 결과를 기반으로 한다. 하나는 모델 크기가 성능에 미치는 영향을 분석한 것이고, 다른 하나는 이러한 AI가 가져올 잠재적인 위험성을 연구한 것이다.

언어모델의 크기에 관해 연구하기 위해서 딥마인드는 2,800억 개의 파라미터를 가진 고퍼(Gopher)라는 이름의 대형언어모델을 구축했다. 이 모델은 테스트에 사용한 150개 이상의 일반적인 언어 문제 중 82%에서 최첨단 모델들보다 나은 성능을 보였다. 이 테스트 이후 연구자들은 고퍼를 RETRO와 겨루게 했고, 70억 파라미터에 불과한 RETRO가 대부분의 과제에서 고퍼의 성능에 필적한다는 것을 발견했다.

윤리 연구는 대형언어모델에 내재된 문제들을 종합적으로 연구 조사하는 것이었다. 언어모델들은 학습에 사용한 기사나 책에서 편향, 가짜 정보, 혐오 발언 같은 해로운 언어들을 학습한다. 그 결과, 모델들은 의미도 모른 채 학습할 때 마주쳤던 문장을 무심코 만들어내면서 나쁜 말을 내뱉곤 한다. 레이는 “데이터를 완벽하게 흉내 내는 모델들도 편향적일 수 있다”고 설명했다.

딥마인드에 따르면 RETRO는 이러한 문제 해결에 도움을 줄 수 있다. AI가 무엇을 배웠는지 분석할 때 신경망을 연구할 필요 없이 데이터베이스만 조사해보면 되기 때문이다. 이론적으로는 데이터베이스 조사를 통해 편향적이거나 해로운 언어를 걸러낼 수 있다. 그러나 딥마인드는 이를 아직 제대로 테스트하지는 않았다. 딥마인드의 연구 과학자 로라 바이딩거(Laura Weidinger)는 “아직 완전히 해결되지 않은 문제이며 이러한 문제를 해결하기 위한 연구가 진행 중”이라고 밝혔다.

외부 데이터베이스를 사용하면 기존 언어모델처럼 신경망을 다시 학습시킬 필요 없이 업데이트를 할 수도 있다. 예를 들어 US오픈 우승자 같은 새로운 정보를 빠르게 입력할 수도 있으며, 수정이 필요한 오래된 정보나 잘못된 데이터도 빠르게 삭제할 수 있는 것이다.

캐나다 맥길대학교의 박사과정 데벤드라 사찬(Devendra Sachan)은 RETRO같은 시스템이 GPT-3 같은 일반적인 언어모델보다 투명성이 더 높다고 말했다. 하지만 “그것이 해로운 언어나 편향을 막아준다고 보장할 수는 없다”고 덧붙였다. 사찬은 딥마인드와 협력하여 RETRO의 전신을 개발한 적이 있으나 이번 연구에는 참여하지 않았다.

사찬은 언어모델의 해로운 행동을 고치려면 학습을 시작하기 전에 학습 데이터를 신중하게 고를 필요가 있다고 생각한다. 그러나 그는 “언어모델이 예측을 위해 외부데이터를 사용할 때 이러한 가이드라인을 적용하는 것이 학습 데이터를 신중하게 고르는 것보다 더 쉬운 방법일 것”이라고 설명하며 RETRO 같은 시스템을 언급했다.

딥마인드가 언어모델 개발에 조금 늦게 뛰어들었을지도 모른다. 그러나 딥마인드는 기존 AI들을 더 개발하는 대신에 완전히 다른 접근법을 도입해 기존 모델에 필적하는 언어모델을 만들어냈다. 사찬은 “이것이 대형언어모델의 미래”라고 확신했다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.