2021 was the year of monster AI models

초거대 AI 모델들이 탄생한 2021년

인간의 언어를 모방하는 오픈AI의 프로그램 GPT-3 출시를 계기로 인공지능 언어모델 시장의 트렌드는 ‘대형화’가 되었다. 많은 대형언어모델이 탄생하고 있는 이 상황에서 AI의 미래는 어떻게 될까? AI는 과연 얼마나 더 커질 수 있으며 그에 따른 비용은 얼마나 필요할까?

2021년은 초거대 인공지능(AI) 모델들이 탄생한 한 해였다.

미국의 인공지능(AI) 연구소인 오픈AI(OpenAI)가 2020년 6월에 초거대 AI 모델 ‘GPT-3’를 발표했을 때 이것의 강력한 언어 처리 능력은 사람들에게 ‘불쾌감’마저 안겨 줄 정도였다.

종래의 다른 언어처리 인공 신경망과 비교할 수 없을 만큼 규모가 거대한 GPT-3는 그럴듯한 문장을 생성하고, 인간과 대화하고, 코드를 자동으로 완성하기까지 했다.

GPT-3 등장을 계기로 AI 업계에는 규모가 더 클수록 성능도 더 뛰어나다는 인식이 확산되었다.

GPT-3에는 학습에 사용한 온라인 텍스트에 내재된 편향과 혐오 표현들을 그대로 모방하고, 규모가 너무 커서 학습하는 데 지속 불가능할 정도로 엄청난 컴퓨팅 파워가 필요하다는 문제점 등이 있다. 하지만 그래도 어쨌든 MIT 테크놀로지 리뷰는 GPT-3를 2020년의 가장 위대한 기술로 꼽은 바 있다.

그러나 GPT-3가 AI 업계에 미친 영향은 2021년에 더욱 분명해졌다. 올해 수많은 기술 기업들과 최고의 AI 연구실들은 다양한 거대 AI 모델을 만들어냈고, 그중 다수가 규모와 성능 면에서 GPT-3를 뛰어넘었다.

과연 이러한 AI 모델들은 앞으로 얼마나 더 커질 수 있고, 그에 따라 얼마나 큰 비용이 필요할까?

GPT-3는 뛰어난 성능뿐만 아니라 그런 성능을 구현하기 위해 도입한 방식 덕분에 전 세계의 관심을 사로잡았다. GPT-3가 보여주는 강력한 성능, 그중에서도 특히 학습하지 않은 말까지도 일반화할 수 있는 능력은 더 성능이 뛰어난 알고리즘 덕분에 가능해진 것이 아니라(물론 GPT-3는 구글이 2017년에 발명한 ‘트랜스포머(transformer)’라는 신경망을 사용한다), GPT-3의 엄청난 크기 덕분이다.

오픈AI의 연구원이자 GPT-3 개발자인 재러드 카플란(Jared Kaplan)은 지난 12월에 있었던 AI 콘퍼런스 ‘NeurIPS’의 공개 토론회에서 “우리는 우리에게 새로운 아이디어가 필요하다고 생각했지만 규모를 키우는 것만으로도 우리가 원하는 바를 구현할 수 있었다”고 밝혔다.

10월 마이크로소프트 개발자 두 명은 마이크로소프트와 엔비디아(Nvidia)가 합작해서 개발한 초거대 언어모델 ‘메가트론-튜링 자연어 생성(Megatron-Turing NLG)’ 모델을 발표하는 블로그 포스트에서 “우리는 크기가 엄청나게 커진 AI 모델이 더 좋은 성능을 보여주는 현상을 계속해서 목격하고 있고, 이러한 발전에는 끝이 없어 보인다”고 적은 바 있다.

모델의 크기가 커진다는 것은 어떤 의미일까? 모델의 크기, 즉, 학습된 신경망의 규모는 신경망이 가진 파라미터(parameter, 매개변수) 수로 측정할 수 있다. 개략적으로 말해서 AI 모델의 파라미터 수가 많을수록 모델이 학습 데이터에서 더 많은 정보를 받아들일 수 있고, 새로운 데이터에 대해서도 더 정확한 예측을 할 수 있다는 의미이다.

GPT-3는 1,750억 개의 파라미터를 가지고 있다. 이는 이전 모델이었던 GPT-2의 파라미터 수보다 10배나 많다. 그러나 2021년에 등장한 대형 모델들을 보면 GPT-3가 상대적으로 왜소해 보이기까지 한다. 미국 스타트업 ‘AI21랩스(AI21 Labs)’에서 출시한 ‘Jurassic-1’은 상업적으로 이용 가능한 가장 큰 언어모델로, GPT-3를 뛰어넘는 1,780억 개의 파라미터를 자랑한다. 12월에 딥마인드(DeepMind)가 발표한 새 모델 ‘고퍼(Gopher)’는 파라미터가 무려 2,800억 개이다. ‘메가트론-튜링 NLG’는 파라미터가 5,300억 개이며, 구글의 스위치-트랜스포머(Switch-Transformer)의 파라미터 수는 1조 6,000억 개, GLaM의 파라미터 수는 1조 2,000억 개에 달한다.

이러한 경향은 미국에서만 드러나는 것이 아니다. 올해 중국의 기술 대기업 화웨이는 2,000억 개의 파라미터 수를 자랑하는 언어모델 ‘판구(PanGu)’를 개발했다. 또 다른 중국 기업 인스퍼(Inspur)는 2,450억 개의 파라미터를 가진 ‘유안(Yuan) 1.0’을 개발했다. 바이두와 펑청연구소(Peng Cheng Laboratory)는 ‘PCL-BAIDU Wenxin’이라는 언어모델을 발표했는데, 2,800억 파라미터를 자랑하는 이 모델은 이미 인터넷 검색, 뉴스피드, 스마트 스피커 등에서 바이두에 의해 다양하게 활용되고 있다. 베이징 인공지능 아카데미(Beijing Academy of AI)는 1,750억 파라미터의 ‘우다오(Wu Dao) 2.0을 발표하기도 했다.

한국의 네이버도 2,040억 개의 파라미터를 자랑하는 언어모델 ‘하이퍼클로바(HyperCLOVA)’를 발표했다.

이러한 모든 언어모델 하나하나는 공학의 발전이 이루어 낸 놀라운 성과라고 할 수 있다. 우선 1,000억 개 이상의 파라미터를 가진 모델을 학습시키는 것은 매우 복잡한 문제이다. 수백 개의 개별적인 GPU들(심층 신경망 학습을 위해 선택된 하드웨어)이 연결되고 통합되어야 하며, 학습 데이터는 반드시 덩어리(chunk)로 분할되어 적절한 때에 올바른 순서로 조합되어야 하기 때문이다.

‘대형언어모델’은 회사의 기술적 기량을 보여주는 중요한 프로젝트가 되었다. 그러나 이러한 새로운 모델 중에 규모를 키우는 것이 더 좋은 결과를 보여준다는 시연을 단순히 반복하는 것을 뛰어넘어 그 이상으로 연구를 진전시킨 예는 거의 찾아볼 수 없다.

아주 약간의 혁신이 있기는 했다. 일단 학습을 끝내면 구글의 ‘스위치-트랜스포머’와 ‘GLaM’은 예측하는 데 파라미터의 극히 일부만을 사용하는 방식을 통해 컴퓨팅 파워를 절약한다. ‘PCL-Baidu Wenxin’은 구식 AI가 정보를 저장할 때 사용했던 기술인 ‘지식 그래프(Knowledge graph)를 GPT-3 스타일의 모델에 결합했다. 또한 딥마인드가 고퍼와 함께 발표한 ‘RETRO’는 파라미터 수가 70억 개에 불과한 언어모델이지만, 텍스트를 생성할 때 외부 데이터베이스를 함께 사용하기 때문에 크기가 25배나 더 큰 언어모델에 비할 만한 성능을 낼 수 있다. 이러한 방법을 도입한 덕분에 RETRO는 비슷한 성능의 거대언어모델보다 학습에 사용되는 비용도 훨씬 저렴하다.

그러나 이러한 인상적인 결과물들에도 불구하고 연구원들은 여전히 파라미터 수를 늘리면 성능이 높아지는 정확한 이유를 이해하지 못하고 있다. 또한 이러한 언어모델들이 학습하고 반복할 수 있는 혐오 언어나 허위 정보에 관한 문제를 수정할 방법도 아직 찾지 못하고 있다. 원래 GPT-3 팀이 언어모델 기술을 설명하는 논문에서 인정한 바와 같이 “인터넷을 통해 학습하는 모델은 인터넷 크기만큼의 편향을 학습하게 된다.”

딥마인드는 RETRO의 데이터베이스가 외부에 있으므로 신경망에만 의존하는 일반적인 언어모델보다 혐오 언어를 필터링하기 더 쉽다고 주장하고 있지만, 이들도 아직 완전히 테스트를 완료한 것은 아니다. 어쩌면 더 나은 아이디어가 거대과학 이니셔티브(BigScience initiative)에서 나올 수도 있다. 이 이니셔티브는 허깅페이스(Hugging Face)라는 AI 회사가 설립한 컨소시엄이며, 허깅페이스는 주로 거대 기술회사 출신으로 오픈소스 언어모델을 개발하고 연구하기 위해 봉사하고 있는 500명가량의 연구원들로 구성되어 있다.

올해 초 발표된 논문에서 팀닛 게브루(TImnit Gebru)와 그녀의 동료 연구원들은 GPT-3와 비슷한 방식을 사용하는 모델이 가질 수밖에 없는 해결되지 못한 문제들에 대해 강조했다. 그들은 “우리는 그런 언어모델 개발과 관련된 잠재적인 위험에 대해 충분한 생각을 하고 있는지, 그리고 그러한 위험을 완화하기 위한 전략까지 고민하고 있는지 묻는다”고 논문에 적었다.

새로운 언어모델 개발에 많은 노력이 투자된 한 해였지만, AI는 여전히 GPT-3의 그림자에 발이 묶여 있는 듯하다. ‘NeurlIPS’ 토론회에서 카플란은 “10년 또는 20년 후에 대형 모델은 표준이 될 것”이라고 밝혔다. 만약 그의 말이 사실이라면 이제는 과학자들이 모델의 크기에만 초점을 맞출 것이 아니라 그러한 모델을 이용해 무엇을 할 수 있을지 생각해봐야 할 것이다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.