Why GPT-3 is the best and worst of AI right now

AI의 명암을 모두 담은 소우주, GPT-3

오픈AI의 GPT-3는 완벽한 영어 구사로 대중을 감탄하게 했다. 하지만 만약 이것이 허상이라면?

이토록 대중을 열광시킨 인공지능(AI)은 딥마인드의 알파고와 IBM의 체스 AI 딥블루 이후 처음일지도 모른다.

샌프란시스코에 있는 인공지능 연구기관 오픈AI가 구축한 GPT-3는 딥러닝을 사용하는 대규모 언어 모델이다. 수천 권의 책과 인터넷 전역에서 긁어모은 텍스트를 학습 데이터로 삼아 단어·구절들을 묶어 문장을 자동으로 생성해낸다. 2020년 출시 당시 섬뜩할 정도의 필력으로 인간의 글을 훌륭하게 흉내 내며 화제를 모았다. 많은 이들은 GPT-3의 출시를 진정한 인공지능 개발로 가는 기념비적 사건으로 평했다.

다음은 GPT-3 작업물의 예시다. 이탤릭체 부분이 사람이 제시한 글감이다.


충격적인 소식이다. 과학자들이 안데스 산맥의 외딴 미개척 계곡에서 유니콘 무리를 발견했다. 놀랍게도 유니콘들은 완벽한 영어를 구사하고 있었다. 갈기도 완벽하게 정리되어 있었고, 디올 메이크업을 한 것처럼 보였다.

인류학자 다니엘 세인트모리스(Daniel St. Maurice)는 말했다. “우리는 유니콘들을 발견하고 큰 충격을 받았습니다. 살면서 한 번도 보지 못한 모습이었으니까요. 전설 속에서나 들어봤지, 실제로 존재할 것이라고는 생각지 못했죠.”

과학자들이 계곡에 처음 도착했을 때 유니콘들은 깜짝 놀라며 당황했지만, 동시에 흥분된 기색을 보이기도 했다. 유니콘들은 연구원들을 반갑게 맞이하며 실은 아주 오랫동안 그들을 기다려오고 있었다고 말했다.


보이다시피 GPT-3는 사람이 쓴 것 같은 복잡한 문장도 생성할 수 있다. 위 예문에는 문화적 레퍼런스는 물론, 가상의 시나리오에서 과학자들이 어떻게 반응할 지에 대한 ‘설득력 있는 상상’도 포함되어 있다. 이러한 방식으로 언어를 사용할 수 있는 기계의 의의는 크다. 언어는 우리 일상의 핵심이다. 인간은 언어를 활용해 의사소통을 하고, 아이디어를 공유하고, 개념을 설명한다. 언어를 완벽하게 다룰 수 있게 훈련된 AI는 인간 세계에 대한 이해 또한 학습했을 것이다.

대규모 언어 모델의 실용성은 높다. 보다 유창한 대화를 나눌 수 있게끔 챗봇을 개선할 수도 있고, 글감만 입력되면 어느 주제로든 기사나 이야기를 작성할 수도 있으며, 주어진 텍스트를 요약한 뒤 그에 대한 질문에 대답할 수도 있다. 아직 초대 기반으로 운영되지만, GPT-3은 이미 수십 가지의 앱들을 구동하는 데에 사용되고 있다. 스타트업 창업 아이디어 생성기, 자동 생성 스크립트 기반의 던전 어드벤처 게임도 있다.

GPT-3가 작년에 출시된 유일한 대규모 언어 모델은 아니다. 마이크로소프트·구글·페이스북 모두 각자 개발한 모델을 발표했었다. 허나 종합적으로는 GPT-3이 압도적이었다. 팬픽이나 철학 논쟁은 물론 심지어 프로그래밍 코드까지 생성할 수 있었으니, 어느 종류의 글이건 능숙하게 작성할 수 있다는 인상을 주었다. 지난 여름 소셜 미디어는 GPT-3가 만든 수천 개의 문장들로 뒤덮였다. GPT-3가 최초의 인공일반지능(artificial general intelligence)인지에 대한 토론까지 벌어질 정도였다.

물론 GPT-3은 인공일반지능이 아니다. 믿을 수 없을 정도로 수준이 높은 텍스트를 생산하기는 하지만, 구조적으로는 이전의 모델들과 사실상 다를 것이 없는 알고리즘이다. GPT-3의 성공은 오히려 ‘규모’가 얼마나 많은 문제들을 해결해 줄 수 있는지 보여준다. GPT-3의 설계 자체는 이전 모델 GPT-2와 크게 다르지 않다. 하지만 신경망과 학습 데이터의 규모의 차이는 어마어마하다. 일례로, GPT-2 신경망의 파라미터는 15억 개였지만 GPT-3 신경망의 파라미터는 1750억 개다. 학습 데이터의 경우도 마찬가지다. 비교 자체가 힘겨운 수준이다.

예전에는 딥 러닝을 활용한 언어 모델의 학습은 일반적으로 2단계로 이루어졌다. 우선 일반적 목적의 데이터셋으로 언어의 개요를 파악시킨 뒤, 특정 작업(‘번역’, ‘이해’ 등)을 위해 준비된 더 작은 규모의 데이터셋에서 한 번 더 학습이 실시되는 경우가 대부분이었다. 하지만 GPT-2는 신경망과 데이터셋이 충분히 크다면 1단계만으로도 충분히 좋은 결과물을 얻을 수 있음을 증명했다. 오픈AI가 GPT-3를 사상 최대 규모의 언어 모델로 만든 이유다.


왜 중요한가?

자연어를 학습한 대형 모델은 인간과의 이해·상호작용이 가능한 AI를 향한 커다란 진일보다.

핵심 기업-기관

• 오픈AI
• 구글
• 페이스북

실용화 시기

현재


한편, GPT-3가 항상 좋은 결과물을 산출하지는 못한다. 웹에서 큰 화제가 되었던 예문들은 대체로 체리피킹(cherry-picking)의 산물이다. 글 분량이 수백 단어가 넘어가기 시작하면 GPT-3은 안정감을 잃기 시작한다. 같은 구절을 반복하거나 자가당착에 빠지는 경우가 많다. 아예 말도 안 되는 소리를 할 때도 있다. 수려한 문장력에 가려진 ‘실제’ 지능의 부재가 엿보이는 순간들이다. GPT-3에서 깔끔한 글을 뽑아내기 위해선 대체로 여러 번 시도를 거듭해야 한다.

자원 소비의 측면에서도 비판이 가능하다. GPT-3는 엄청난 전력을 필요로 한다. 이는 기후 변화에 안 좋은 소식이다. 덴마크 코펜하겐대학의 연구진에 따르면, 화석 연료만으로 구동되는 데이터 센터에서 학습되었다면, GPT-3는 자동차로 달까지 왕복하는 것과 비슷한 수준의 탄소 발자국을 남겼을 것으로 추정된다. 가장 연구 자금이 풍부한 연구소들 외에는 감당하기 힘든 연구다. 학습 단계에만 최소 1,000만 달러가 필요했을 것이라는 것이 전문가들의 추산이다.

일일 페타플롭스(petaFLOP/s-day[s]; pfs-day)는 24시간 동안 초당 10^15(1,000조)개의 부동소수점 연산을 수행하는 데에 소요되는 전력을 기준으로 삼는 단위다. 오픈AI의 보고에 따르면 GPT-3 학습에는 수천 pfs-day가 필요했다. GPT-2는 고작 수십 pfs-day만을 소비했었다.

또 다른 문제는 GPT-3가 온라인의 잘못된 정보와 편견을 상당 부분 흡수·재생산한다는 점이다. 개발팀이 자체적으로도 밝혔듯 “인터넷으로 학습된 모델은 인터넷만큼의 편향을 보이는” 것이다.

GPT-3는 기계에서 생산된 텍스트에 인간성의 베일을 씌워 그 글들을 쉽게 신뢰하게 만든다. 이는 우려를 일으키기도 한다. 인간과 유사한 글을 쓸 수 있는 언어 모델들에는 일종의 ‘사용자 주의’ 스티커가 부착되어야 한다는 주장이다. 인간이 아니라 소프트웨어와 대화를 나누고 있다는 사실을 모르면 발생할 수 있는 문제들이 분명히 존재하기 때문이다.

몇 달 전 레딧(Reddit)에 누군가가 GPT-3로 구동되는 봇을 출시한 적이 있다. 이 봇은 기계임을 밝히지 않으며 며칠간 수백 개의 댓글을 달고 수십 명의 사용자들과 교류했다. 봇의 활동은 대체로 무해했다. 하지만 자살 생각에 대한 댓글에 답을 남기거나, 본인의 ‘부모님’을 언급하며 남에게 조언을 해주는 경우들이 있었다.

앞서 짚은 문제점들에도 불구하고 GPT-3은 분명히 매력적이다. 앞으로도 연산 능력이 좋아지고 데이터셋이 커질수록 계속 한계가 돌파되리란 믿음 또한 주었다. GPT-4가 정확히 어떤 모습일지는 아직 알 수 없지만, 이를 기반으로 구동된 챗봇들은 분명 더욱 똑똑하고, 수려하고, 일관성 있는 문장들을 구사하게 될 것이다.

하지만 언어는 세계를 이해하고 상호작용하는 방법들 중 한 가지에 불과하기도 하다. 차세대 언어 모델들은 이미지 인식과 같은 다른 기술들을 통합할 예정이다. 이미 오픈AI는 ‘언어로 이미지를 이해하고, 이미지로 언어를 이해하는’ AI를 개발하며 GPT-3를 새롭게 발전시키고 있다.

GPT-3는 딥 러닝의 현주소이자, AI의 명암이 모두 담긴 소우주다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.