
초대형 AI 언어모델 이해 위해 뭉친 세계 과학자
지난 5월 18일 구글 CEO 순다 피차이(Sundar Pichai)는 어떤 주제에 대해서도 사용자와 대화를 나눌 수 있는 람다(LaMDA)라는 이름의 새롭고 인상적인 AI 시스템을 발표했다.
구글은 우선 람다를 자사 검색엔진 포털, 음성인식비서 및 워크플레이스(Workplace)에 통합한다는 계획이다. 워크플레이스는 지메일, 독스, 드라이브 등 구글의 클라우드 기반 업무 소프트웨어 모음이다. 그렇지만 피차이에 따르면 궁극적인 목표는 사용자가 질문하면 모든 구글 제품에서 텍스트, 비디오, 오디오 등 형태를 막론하고 원하는 정보를 가져오는 대화형 인터페이스를 구축하는 것이다.
람다의 출시는 우리의 일상 생활에 언어 기술이 스며드는 새로운 방식의 출현을 상징한다. 그렇지만 화려한 발표 행사의 이면에는 람다 같은 최첨단 시스템을 둘러싼 윤리 논쟁이 자리한다. 람다는 대형 언어 모델(large language model, LLM) 즉, 방대한 텍스트 데이터를 기반으로 훈련하는 딥러닝 알고리즘이다.
그 같은 언어 모델이 인종차별적, 성차별적, 폭력적 사고방식을 어떻게 학습하는지 보여주는 연구가 이미 존재한다. 이 같은 언어 모델은 ‘의사’를 남성과, ‘간호사’를 여성과 연관 짓고, 좋은 의미의 단어는 백인과, 나쁜 의미의 단어는 흑인과 연관 짓는다. 이 모델에 우파 성향 단어를 던지면 대량학살, 자해, 아동성폭력 등을 부추기는 말을 하기 시작할 것이다. 또, 이런 언어 모델의 어마어마한 규모는 거대한 탄소 발자국(carbon footprint)을 남긴다. 유창한 언어 능력을 접한 사용자는 사람이 말을 하는 것으로 쉽게 착각하고, 이는 거짓 정보를 대량으로 유포하는 결과로 이어질 수 있다고 전문가들은 경고한다.
지난 12월 구글은 윤리적 AI(Ethical AI) 부서의 공동 팀장 팀닛 게브루(Timnit Gebru)를 해고했다. 게브루가 위에 언급된 내용을 지적한 논문의 철회를 거부한 후의 일이었다. 구글 직원들은 공개 서한을 통해 “전례 없는 연구 검열”이라며 회사를 대대적으로 비난했다. 그리고 구글은 몇 달 후 논문 공저자이자 윤리적 AI 부서의 공동 팀장 마가렛 미첼(Margaret Mitchell)도 해고했다.
구글만 이런 언어 기술을 도입한 것은 아니다. 지금까지 가장 큰 주목을 받은 언어 모델은 오픈AI(OpenAI)의 GPT-2, GPT-3이다. 이 두 모델은 깜짝 놀랄 만큼 설득력 있는 텍스트를 단락 단위로 생성한다. 또, 언어뿐만 아니라 작곡과 코딩 등 다목적으로 사용할 수 있다. 마이크로소프트는 GPT-3을 자사 제품에 통합하기 위해 GPT-3에 대한 독점 라이선스를 체결했다(어떤 제품인지는 아직 알려지지 않았다). 페이스북도 번역 및 콘텐츠 관리용으로 자체 LLM을 개발했다. 스타트업들도 기술 대기업이 내놓은 모델을 토대로 수십 가지 제품과 서비스를 출시했다. 이메일, 검색, SNS 포스팅 등 우리가 하는 모든 디지털 상호작용이 LLM을 통해 필터링 되는 날이 머지않아 올 것이다.
하지만 불행하게도 LLM이 실생활에 활용될 때 LLM의 결함이 사람들에게 어떤 영향을 미치는지 또는 이런 상황을 설계 개선을 통해 완화할 수 있는지에 관한 연구는 전무하다시피 하다. 게브루와 미첼의 사례에서 명백히 드러났듯, LLM을 훈련하고 유지할 만큼 재정적 여유가 있는 소수의 기업 입장에서는 LLM을 면밀하게 조사하지 않는 것이 경제적으로 더 이익이다. 다시 말해, LLM은 불확실한 과학적 기반 위에서 인터넷 언어 기반에 점점 통합되고 있는 것이다.
이러한 상황에서 LLM의 능력과 한계를 더 잘 이해하기 위해 질주하는 이들이 있다. 허깅페이스(Huggingface)가 이끄는 빅사이언스(BigScience) 프로젝트에 전 세계에서 500명이 넘는 연구자들이 모여 오픈소스 LLM을 구축하기 위해 박차를 가하고 있다. 허깅페이스는 자연어 처리(NLP, natural-language processing)에 대한 ‘열린 과학(open science)’ 접근을 지향하는 스타트업이다. 빅사이언스 프로젝트를 통해 구축되는 LLM은 과학계의 공용 자원으로 활용될 것이다. 이들의 목표는 1년 동안 최대한의 연구 성과를 거두는 것이다. 이들의 핵심 질문은 이것이다. ‘해로운 결과를 초래하지 않고 LLM의 장점을 누리려면 LLM을 언제, 어떻게 개발하고 도입해야 하는가?’
“대형 언어모델을 둘러싼 열기를 멈출 수 없다. 모든 이들이 LLM을 훈련하기를 원한다”라고 허깅페이스의 최고과학자이자 빅사이언스 프로젝트의 공동 책임자인 토마스 울프(Thomas Wolf)는 말한다. “그렇지만 우리는 이 열기를 좀 더 유익한 방향으로 살짝 돌릴 수 있다.”
확률론적 앵무새
빅사이언스가 활동을 시작한 달에 코히어(Cohere)라는 스타트업도 조용히 모습을 드러냈다. 전직 구글 연구원들이 설립한 코히어는 LLM을 원하는 모든 기업에 ‘단 한 줄의 코드만으로 사용 가능한’ LLM을 제공하겠다고 약속했다. 코히어는 데이터 센터의 유휴 전산 자원을 활용하여 LLM을 개발하고 호스팅하는 기술을 개발했다. 코히어의 기술을 활용하면 언어 모델의 유지와 도입에 필요한 클라우드 공간 대여 비용을 낮출 수 있다.
코히어의 초기 고객사 중 대표적인 기업은 아다서포트(Ada Support)이다. 아다서포트는 코딩을 하지 않고도 고객지원 챗봇을 만들 수 있는 플랫폼을 운영하는 스타트업으로, 페이스북, 줌 등이 아다서포트의 플랫폼을 이용한다. 또, 코히어 투자자 목록에는 컴퓨터비전 분야의 선구자 페이페이 리(Fei-Fei Li), 튜링상 수상자 제프리 힌튼(Geoffrey Hinton), 애플 인공지능 책임자 이안 굿펠로우(Ian Goodfellow)를 비롯한 업계 거물들이 이름을 올렸다.
코히어 외에도 많은 스타트업들과 프로젝트들이 다양한 산업 분야에서 언어 모델 도입을 추진하고 있다. 독일의 알렙알파(Aleph Alpha)는 독일판 GPT-3을 만드는 스타트업이다. 오픈AI 출신 연구원 여럿이 모여 설립한 벤처기업도 있는데, 아직 이름은 알려지지 않았다. 엘레우터(Eleuther)는 최근 GPT-3의 무료 복제본(성능이 다소 낮은) GPT-Neo를 발표하기도 했다.
그렇지만 연구자들이 갈수록 심각한 우려를 표명하는 것은 현재의 언어 모델이 아니라 앞으로의 언어 모델이 지향하는 지점이다. 오늘날 LLM은 명실공히 세계에서 가장 강력한 자동완성 기술이다. 수백만 개의 문장과 단락, 심지어 대화의 일부를 흡수하여 논리적으로 말이 되도록 이들 개별 단위를 어떤 순서로 배열할지 결정하는 통계 패턴을 학습한다. 이는 LLM이 일정한 활동을 강화할 수 있다는 뜻이다. 예를 들어, 잘 만들어진 스크립트가 주어지면 대화를 양방향으로 보다 유창하게 이어가는 챗봇을 LLM으로 만들 수 있다는 뜻이다. 그렇다고 해서 LLM이 읽고 말하는 내용을 실제로 이해하는 것은 아니다. 또, LLM의 가장 최신 기능은 대부분 영어로만 사용 가능하다.
이것이 바로 게브루와 미첼 그리고 다섯 명의 다른 공저자들이 LLM을 ‘확률론적 앵무새(stochastic parrots)’로 지칭한 논문에서 경고한 내용이다. “언어 기술은 범위와 맥락, 틀이 적절하게 설정되면 매우 유용한 기술”이라고 에밀리 벤더는 말한다. 벤더는 워싱턴대학교(University of Washington) 언어학 교수이자 해당 논문의 공저자 중 한 명이다. 그렇지만 언어 모델의 범용성과 그럴 듯하게 따라하는 능력을 체험한 기업들은 아직 언어 모델 사용이 적합하지 않은 분야에서도 언어 모델을 사용하고 싶은 유혹을 느낀다.
최근 AI 분야 최대 학술회의에 기조 강연자로 나선 게브루는 LLM의 섣부른 도입이 초래할 수 있는 결과를 자신의 경험을 통해 설명했다. 게브루는 에티오피아에서 태어나고 자랐는데, 최근 그곳에서 전쟁이 격화되면서 북부 티그레이 지역이 폐허로 변했다. 그리고 에티오피아에서는 86개의 언어가 사용된다. 그렇지만 그 중 주류 언어 기술에 반영된 것은 거의 없다.
LLM의 이 같은 언어 다양성 결핍에도 불구하고 페이스북의 글로벌 콘텐츠 관리 업무는 언어 모델 의존도가 매우 높은 상황이다. 지난 11월 티그레이에서 전쟁이 터졌을 때, 게브루는 쏟아지는 거짓정보 속에서 언어 모델이 진짜 정보를 찾느라 헤매는 것을 직접 경험했다. 이는 콘텐츠 관리에서 끊임없이 관찰되는 전형적인 양상이다. 실리콘밸리 기업이 중요하게 여기지 않는 언어를 사용하는 인구 집단은 혹독한 디지털 환경을 맞을 수밖에 없는 것이다.
게브루는 LLM의 해악이 여기서 끝이 아니라고 지적했다. 관리를 통해 걸러지지 않은 가짜뉴스, 혐오발언, 심지어 살해위협이 차세대 언어 모델 구축을 위한 훈련 데이터로 사용된다. 훈련된 말을 흉내 내는 언어 모델이 결국 이 같은 유해한 언어 패턴을 인터넷에서 반복적으로 내뱉고 마는 것이다.
이런 유해한 언어가 최종 애플리케이션에서 어떤 식으로 드러나는지 알 수 있을 만큼 깊이 있는 연구가 이루어진 사례는 많지 않다. 그래도 몇몇 연구가 있기는 하다. 2018년 『억압의 알고리즘(Algorithms of Oppression)』을 통해 저자 사피야 노블(Safiya Noble)은 구글 검색 엔진의 내재적 편향이 인종차별을 어떻게 영속화하고 최악의 경우 인종차별적 폭력에 어떻게 동기를 부여하는지 설명했다. 노블은 UCLA(University of California, Los Angeles)에서 부교수로 재직하며 정보 및 아프리카계미국인학을 가르치고 있다.
“그 결과는 꽤나 가혹하고 또 중요하다”고 노블은 말한다. 구글은 단순히 일반인을 위한 기초적인 정보 창구가 아니다. 구글은 기관과 대학교, 주정부와 연방정부에 정보 기반을 제공하는 기업이다.
이미 구글은 LLM을 활용하여 검색 결과 중 일부를 최적화하고 있다. 이번에 발표한 람다 그리고 출판 전 논문에서 발표한 제안을 통해 구글은 앞으로 LLM 사용을 더욱 증대할 것임을 분명히 했다. 노블은 그렇게 되면 문제가 더 심각해질 것이라고 우려한다. “대형 언어 모델에 내재된 인종차별적, 성차별적 언어 패턴에 대해 중요한 질문을 했다는 이유로 윤리적 AI팀이 해고된 사실은 경고였던 것이다.”
빅사이언스 프로젝트
빅사이언스 프로젝트는 LLM에 대한 과학적 조사의 필요성이 높아지면서 이를 직접 해결하기 위한 시도로 출발했다. LLM의 빠른 확산과 게브루와 미첼에 대한 구글의 검열 시도를 본 울프와 몇몇 동료들은 연구자들이 직접 나설 때가 되었음을 깨달았다.
그들은 유럽핵입자물리연구소 CERN 같은 과학 분야의 개방적 협력 사례를 참고하여, 기업에서 벗어나 중요한 연구를 독립적으로 수행할 때 사용할 수 있는 오픈소스 LLM에 대한 아이디어를 떠올렸다. 그들은 올 해 4월 그 같은 모델을 구축하기 위해 프랑스 정부의 슈퍼컴퓨터를 사용해도 좋다는 승인을 받았다.
일반적으로 기술 기업의 LLM 구축에는 기본적으로 기술 전문가에 속하는 소수의 인원이 참여한다. 그렇지만 빅사이언스 프로젝트는 다양한 국적과 학문적 배경을 가진 연구자 수백 명이 참여하는 강력한 협업 기반 모델을 지향했다. 프랑스 출신인 울프는 우선 프랑스의 NLP 연구자들부터 접촉했다. 이렇게 시작된 노력이 전 세계로 빠르게 확산되면서 500명이 넘는 연구자가 참여하는 글로벌 프로젝트로 발전했다.
현재 빅사이언스는 느슨하게 연결된 십여 개의 실무그룹이 각자 LLM 개발 및 조사에 필요한 여러 측면을 담당하는 형태로 운영되고 있다. 예를 들어, 슈퍼컴퓨터의 생애주기 비용(life-cycle costs)을 고려하여 모델의 훈련과 운용에 따른 탄소발자국을 포함한 LLM의 환경 영향을 측정하는 실무그룹이 있다. 어떻게 하면 책임 있는 방식으로 훈련 데이터를 확보할 수 있을지를 고민하는 실무그룹도 있다. 이 그룹은 인터넷에서 데이터를 그냥 긁어오는 것이 아니라, 라디오 역사채널이나 팟캐스트 방송 내용을 텍스트로 생성하여 데이터로 사용할 것을 제안한다. 이를 통해 유해한 표현이 모델에 주입되는 것을 막고 개인의 동의 없이 정보가 사용되는 것을 방지하는 것이 목표다.
모델이 지닌 ‘다언어성(multilinguality)’의 평가와 발전을 목표로 하는 그룹도 있다. 이를 위해 가장 먼저 영어, 중국어, 아랍어, 인도어(힌두어, 우르두어 포함), 반투어(스와힐리어 포함) 등의 언어 또는 어족이 대상으로 선정되었다. 이들의 계획은 언어 집단과 긴밀히 협력하여 지도에 각 집단의 방언을 최대한 많이 표시하고, 집단 고유의 데이터 프라이버시 규범이 준수될 수 있도록 하는 것이다. “우리는 각 언어 집단이 자신의 데이터가 사용되는 방식에 대해 발언권을 가지기를 희망한다”고 허깅페이스 연구원 야치네 제르나이트(Yacine Jernite)는 말한다.
프로젝트의 핵심은 GPT-3 또는 람다와 경쟁하는 상업성 있는 언어 모델의 구축에 있지 않다. 빅사이언스가 만들고자 하는 모델은 너무 크고 느려서 기업에는 유용하지 않을 것이라고 소르본(Sorbonne)대학교 부교수 카렌 포르트(Karën Fort)는 말한다. 이 모델은 순수 연구용으로 설계되고 있다. 모든 데이터 포인트와 모델 구축에 관한 모든 결정은 신중하고 공개적인 문서화 과정을 거친다. 따라서 그 모든 요인이 모델이 생성하는 결과에 미치는 영향을 분석하는 것이 쉬워질 것이다. “단순히 최종 결과물을 산출하려는 것이 아니”라고 페이스북 연구원 안젤라 팬(Angela Fan)은 말한다. “우리는 모든 요인을 산출점(delivery point)이자 결과물로 상정한다.”
이것이 원대한 프로젝트임은 말할 필요도 없다. AI 세계에 이보다 규모가 큰 협력 기반 프로젝트는 지금까지 없었다. 그렇게 많은 연구자들을 조율하는 것 자체도 큰 일이다(그래서 조율을 전담하는 실무그룹도 있다). 또, 모든 연구자들이 자발적으로 프로젝트에 참여하고 있다. 프랑스 정부의 지원은 컴퓨터 자원에 국한되며, 인적 자원에 대한 지원은 없다.
그렇지만 연구자들은 자신들을 하나로 모은 공통의 필요가 놀라운 수준의 에너지와 동력을 발휘하는 힘을 준다고 설명한다. 프로젝트가 종료되는 내년 5월이면 LLM의 한계에 관한 심도 깊은 연구 뿐만 아니라 LLM의 책임 있는 구축과 도입을 위한 더 나은 도구와 방식이 마련될 것이라고 많은 이들이 낙관한다.
프로젝트를 조직한 이들은 이 프로젝트를 계기로 LLM 전략에 더 나은 방식을 도입하는 이들이 업계에 늘어나기를 희망한다. 이것이 이상적인 바램이라는 점은 이들도 물론 인정한다. 오히려, 프로젝트에 엄청나게 많은 연구자들이 참여했고, 그들 중 많은 수가 거대 기술 기업 출신이라는 점 자체가 NLP 공동체의 새로운 규범 확립에 도움이 될 것이다.
어떤 면에서는 이미 규범이 변화했다고도 할 수 있다. 코히어의 고객사 중 여럿이 게브루와 미첼의 해고를 둘러싼 논쟁을 접한 후 언어 기술의 안전성이 우려된다는 반응을 보인 것이다. 이에 코히어는 LLM 모델이 미칠 수 있는 유해성을 완화하기 위해 기술적, 비기술적 연구에 계속 투자한다는 내용의 서약서를 인터넷 홈페이지에 별도로 게시했다. 서약에 따르면 코히어는 언어 기술 용도 제한 정책을 마련하기 위해 외부 전문가로 구성된 자문위원회도 구성하기로 했다.
“NLP는 매우 중요한 전환점에 섰다”고 포르트는 말한다. 이는 빅사이언스 프로젝트가 흥미진진한 이유이기도 하다. 이는 연구가 진일보할 기회를 제공하고 업계의 현 상황을 변화시킬 희망적 대안을 제시한다. “다른 길로 함께 가보자. 사회에 도움이 되기 위해 우리가 할 수 있는 방법과 일이 무엇인지 알아보자’”고 말한다.
포르트는 “NLP가 인간에게 해를 끼치는 것이 아니라 도움이 되는 것이기를 바란다”고 말한다.