Why Meta’s latest large language model survived only three days online

메타의 최신 대규모 언어모델이 등장 3일 만에 자취를 감춘 이유

메타가 과학자들에게 도움을 주려고 공개한 대규모 언어모델 ‘갤럭티카’는 편향적이고 부정확하며 비상식적인 결과만 생산했다.

메타는 11월 15일 과학자들에게 도움을 주려는 목적으로 설계된 ‘갤럭티카(Galactica)’라는 새로운 대규모 언어모델(large language model)을 공개했다. 그러나 갤럭티카는 메타가 원했던 대로 돌풍을 일으키며 자리를 잡기는커녕 격렬한 비난에 시달린 끝에 3일 만에 말 그대로 ‘사망’했다. 메타는 모두에게 시험해보라고 장려했던 공개 데모를 17일 삭제했다.

메타의 실수와 자만은 기술 대기업이 대규모 언어모델이 가진 심각한 한계에 대해 맹점을 가지고 있다는 사실을 재차 확인해준다. 이미 많은 연구를 통해 드러난 바와 같이 대규모 언어모델에는 편견을 재현하고 거짓을 사실처럼 주장하는 등의 여러 결함이 있다.

그러나 메타를 비롯해서 대규모 언어모델을 개발하고 있는 구글 같은 기술 기업들은 이러한 문제를 심각하게 받아들이지 않고 있다.

갤럭티카는 4,800만 개의 과학 기사, 웹사이트, 교과서, 강의 노트, 백과사전 데이터로 학습한 ‘과학을 위한’ 대규모 언어모델이다. 메타는 이 모델이 연구원과 학생들을 위한 ‘지름길’이 되어줄 것이라며 제품을 홍보했다. 메타의 말을 빌리자면 갤럭티카는 “학술 논문을 요약하고 수학 문제를 해결하며 위키(Wiki) 기사를 생성하고 과학 코드를 작성하고 분자와 단백질에 주석을 다는 등 다양한 일을 할 수 있다.”

그러나 이러한 미사여구는 빠르게 사라졌다. 다른 모든 언어모델처럼 갤럭티카도 사실과 허구를 구별할 수 없는 생각 없는 봇(bot)에 불과하다. 갤럭티카가 공개된 지 몇 시간도 지나지 않아서 과학자들은 이 언어모델이 내놓은 편향적이고 부정확한 결과를 소셜미디어에 공유하기 시작했다.

어떤 사람들은 갤럭티카가 ‘과학을 위한’ 언어모델임에도 불구하고 부정확하고 편향적인 결과물을 내놓을 수 있다고 말하는 메타의 경고문을 보고 이 언어모델의 유용성에 대해 회의적인 태도를 보이기도 했다.

워싱턴 대학에서 검색 기술을 연구하는 치라그 샤(Chirag Shah)는 “나는 이번 언어모델에 매우 놀라기도 했고 전혀 놀라지 않기도 했다”며 “이런 모델은 시연할 때 매우 환상적이고 마법 같고 지적인 기계인 것처럼 보이지만 사람들은 이런 언어모델이 여전히 원칙적으로는 과장 광고에서 주장하는 것처럼 환상적으로 작동할 수 없다는 사실을 이해하지 못하는 것 같다”고 말했다.

데모를 삭제한 이유에 관해 묻자 메타 측에서는 MIT 테크놀로지 리뷰를 한 트위터 게시물로 안내했다. 해당 트윗의 내용은 다음과 같았다: “갤럭티카 모델 데모를 사용해주신 여러분께 감사드립니다. 우리는 지금까지 보내주신 피드백에 감사드리며 데모를 잠시 중단하기로 했습니다. 저희 언어모델에 관해 더 연구하여 논문을 발표하고자 하는 연구자분들은 갤럭티카를 이용하실 수 있습니다.”

갤럭티카의 근본적인 문제는 과학적인 텍스트를 생성하도록 설계된 언어모델이 기본적으로 갖춰야 하는 거짓과 진실을 구별해 내는 기능이 없다는 점이다. 사람들은 갤럭티카가 가짜 논문(때로는 실제 저자의 이름을 이용)을 만들어내고 단백질 복합체와 빛의 속도에 관한 기사처럼 아주 손쉽게 ‘우주에 사는 곰’의 역사에 관한 위키 기사를 생성하는 것을 발견했다. 우주에 사는 곰이라고 하면 내용이 가짜라는 것을 파악하기 쉽지만, 사람들이 잘 알지 못하는 주제에 관한 글이라면 언어모델이 생성한 글이 사실인지 허구인지 구별하기 어려울 수 있다.

많은 과학자들은 강하게 반발했다. 독일의 막스플랑크 지능시스템 연구소(Max Planck Institute for Intelligent Systems)의 소장이며 딥러닝(deep learning)에 관해 연구하는 마이클 블랙(Michael Black)은 트위터에서 “모든 경우에 갤럭티카는 잘못됐거나 편향적인 정보를 마치 올바른 정보인 것처럼 권위적인 어조로 전달했다. 이건 꽤 위험하다고 생각한다”고 말했다.

마이클 블랙의 트윗 내용

이보다 더 긍정적인 의견도 있었지만 그런 의견에도 늘 분명한 경고가 뒤따랐다. 프린스턴 대학교의 천체물리학자 마일스 크랜머(Miles Cranmer)는 트위터에서 “이 언어모델이 어떻게 발전해나갈지 보게 되어 매우 흥분된다”면서도 “결과물을 말 그대로 받아들이거나 신뢰해서는 안 된다. 기본적으로 이 언어모델을 (개략적인) 2차 출처에 대한 구글 고급 검색처럼 취급해야 한다”고 주장했다.

갤럭티카는 처리할 수 있는 주제와 관련해서도 한계를 가지고 있다. 예를 들어 ‘인종차별(racism)’이나 ‘에이즈(AIDS)’ 같은 특정 주제에 관한 텍스트 생성을 요청하면 “죄송합니다, 요청하신 내용은 콘텐츠 필터를 통과하지 못했습니다. 이것이 과학적 언어모델이라는 점을 기억하며 다시 시도하시길 바랍니다”라는 반응을 보였다.

갤럭티카를 개발한 메타의 연구팀은 언어모델이 검색엔진보다 낫다며 “우리는 언어모델이 사람이 과학적 지식에 접근하기 위해 사용할 차세대 인터페이스가 될 것이라고 생각한다”고 주장했다.

연구원들이 이렇게 생각하는 이유는 언어모델이 정보를 저장하고 결합하고 추론할 잠재력을 가질 수 있기 때문이다. 그러나 여기서 ‘잠재력’이라는 부분이 중요하다. 언어모델은 아직 그런 일을 할 수 없다. 그리고 어쩌면 앞으로도 해낼 수 없을지도 모른다.

샤는 “언어모델은 일련의 단어 패턴을 포착해서 확률론을 바탕으로 단어들을 내뱉을 수 있을 뿐이며 실제로 어떤 지식을 갖추고 있지는 않다”며 “그저 지성이 있는 것 같은 인상을 줄 뿐”이라고 지적했다.

뉴욕 대학교의 인지과학자이자 딥러닝을 강경하게 비난하는 게리 마커스(Gary Marcus)는 ‘쓰레기에 대한 몇 마디(A Few Words About Bullshit)’라는 제목의 서브스택(Substack) 게시물에서 언어모델에 대한 자신의 의견을 밝혔다. 해당 게시글에서 그는 “대규모 언어모델이 인간이 쓴 텍스트를 모방하는 능력은 통계를 바탕으로 가장 높은 확률을 찾아내는 솜씨”에 지나지 않는다”고 주장했다.

그럼에도 불구하고 언어모델이 검색엔진을 대체할 수 있다는 생각을 지지하는 회사는 메타만이 아니다. 지난 몇 년 동안 구글도 정보를 찾는 방법으로 람다(LaMDA) 같은 언어모델을 홍보해왔다.

언어모델을 검색엔진으로 활용하겠다는 생각은 그럴듯해 보인다. 그러나 메타가 갤럭티카를 홍보할 때 그랬던 것처럼 그런 언어모델이 생성하는 인간이 쓴 것 같은 텍스트에 항상 신뢰할 수 있는 정보가 담겨 있으리라고 가정하는 것은 무모하고 무책임한 생각이다.

갤럭티카의 흥미로운 부분을 칭찬하면서도 이 언어모델을 검색엔진으로 사용하거나 기사 작성에 활용할 수 있다는 생각에 반대하는 의견을 보이는 사람도 있다.

그리고 그런 생각은 메타의 마케팅팀만 저지른 잘못이 아니었다. 튜링상(Turing Award) 수상자이자 메타의 수석과학자인 얀 르쿤(Yann LeCun)은 갤럭티카를 끝까지 옹호했다. 갤럭티카가 공개된 날 르쿤은 트위터에서 “갤럭티카에 텍스트를 입력하면 관련 참고자료, 공식 등 모든 것이 담긴 논문을 만들어줄 것”이라고 말했다. 모델 공개 후 3일이 지났을 때 그는 다음과 같은 트윗을 남겼다. “갤럭티카 데모는 이제 중단된다. 이제 그걸 가볍게 잘못 사용하면서 얻는 즐거움도 더는 느낄 수 없다. 만족하는가?”

이번에 메타가 겪은 상황은 마이크로소프트의 ‘테이(Tay)’ 때와는 꽤 다르다. 2016년 마이크로소프트는 테이라는 이름의 챗봇을 트위터에 출시했다가 트위터 이용자들이 해당 챗봇을 인종차별적이고 동성애 혐오적인 ‘섹스봇’으로 바꿔놓는 바람에 16시간 만에 봇을 삭제해야 했다. 그러나 메타가 갤럭티카를 다루는 방식에서는 그때와 같은 순진함이 느껴진다.

샤는 “기술 대기업들은 계속해서 이런 연구를 수행하고 있으며 아마도 중단하지 않을 것”이라고 전망하며 이렇게 덧붙였다. “기업들은 자신들이 하지 않으면 다른 누군가가 할 것이므로 반드시 연구를 해야 한다고 느낀다. 그들은 이것이 정보 접근의 미래라고 생각한다. 아무도 그런 미래를 요청한 적이 없는데도 말이다.”

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.