
AI 민주화를 추구하는 급진적인 새 프로젝트
파리 외곽에 있는 프랑스 국립과학연구원(French National Center for Scientific Research)의 슈퍼컴퓨팅 센터 내부에는 검은 냉장고처럼 보이는 기계들이 줄지어 늘어선 채로 100데시벨에 달하는 귀가 먹먹할 정도의 엄청난 굉음을 내며 윙윙거리고 있다.
이 기계들은 117일 동안 ‘블룸(BLOOM)’이라는 이름의 새 대형언어모델(large language model)을 만든 슈퍼컴퓨터의 일부다. 블룸을 제작한 연구원들은 블룸이 일반적인 인공지능(AI) 개발 방식에서 벗어나 급진적인 변화를 가져오기를 바란다.
오픈AI(OpenAI)의 GPT-3와 구글의 람다(LaMDA) 같은 더 유명한 대형언어모델과 달리 블룸(BLOOM: BigScience Large Open-Science Open-access Multilingual Language Model)은 가능한 한 투명성을 보장할 수 있도록 설계됐다. 즉 연구원들은 블룸 학습에 사용한 데이터에 관한 자세한 자료와 개발 과정에서의 어려움, 언어모델의 성능을 평가했던 방법을 모두 공유했다. 이전에 오픈AI와 구글은 코드를 공유하거나 대중에게 모델을 공개하지 않았기 때문에 외부 연구원들은 그런 대형언어모델이 어떤 방식으로 학습했는지에 관해 거의 알 수 없었다.
블룸은 프랑스 정부의 지원을 받아서 AI 스타트업 허깅페이스(Hugging Face)가 협업한 빅사이언스(BigScience)라는 프로젝트에서 지난해 1,000여 명의 자원봉사 연구원들이 제작했다. 블룸은 공식적으로 7월 12일에 출시됐다. 연구원들은 다른 선도적인 모델에 비할 만한 성능을 가진 오픈 액세스(open-access) 대형언어모델을 개발하면 AI 개발 문화에 장기적인 변화를 가져올 수 있을 것이며 전 세계 연구원들이 첨단 AI 기술에 공평하게 접근할 수 있게 될 것이라고 기대하고 있다.
블룸의 용이한 접근성은 매우 큰 장점이다. 누구든 허깅페이스 웹사이트에서 블룸을 다운로드해서 무료로 만져볼 수 있다. 사용자는 사용할 언어를 선택한 후에 레시피나 시 쓰기, 텍스트 번역이나 요약, 또는 프로그래밍 코드 작성 같은 작업을 수행하라는 요청을 입력할 수 있다. AI 개발자들은 블룸을 기반으로 자신들의 자체 애플리케이션을 구축할 수도 있다.
1,760억 개의 파라미터(parameter: 입력 데이터가 원하는 출력 데이터로 변환되는 방식을 결정하는 변수)를 가진 블룸은 1,750억 파라미터의 GPT-3보다 규모가 크다. 빅사이언스는 블룸이 비슷한 규모의 다른 모델과 유사한 수준의 정확성과 문제점을 가지고 있다고 주장했다. 스페인어나 아랍어 같은 언어의 경우 이 정도 규모의 언어모델은 블룸이 처음이다.
그러나 블룸의 개발자들은 블룸에서 대형언어모델에 깊이 내재된 문제점을 고치지 않았다고 경고했다. 그러한 문제점으로는 데이터 거버넌스와 프라이버시에 관한 적절한 정책의 부재, 그리고 인종차별적이거나 성차별적인 언어 등 문제 있는 콘텐츠를 만들어내는 알고리즘의 경향 등이 있다.
공개 모델
대형언어모델은 방대한 데이터로 학습한 딥러닝(deep-learning) 알고리즘이다. 이것은 AI 연구에서 가장 ‘핫’한 분야이기도 하다. 인간이 쓴 것처럼 보이는 텍스트를 생성하는 GPT-3와 람다 같은 강력한 모델들은 우리가 온라인에서 정보를 처리하는 방식을 바꿀 엄청난 잠재력을 가지고 있다. 그러한 모델들은 챗봇(chatbot)으로 사용되거나 정보를 찾거나 온라인 콘텐츠를 조정하거나 책을 요약하거나 지시내용을 바탕으로 완전히 새로운 텍스트를 생성할 수 있다. 그러나 대형언어모델에는 문제가 가득하다. 모델을 살짝 자극해도 해로운 콘텐츠를 생산하기 시작한다.
대형언어모델은 또한 매우 배타적이다. 언어모델을 학습시키려면 고가의 컴퓨팅 파워를 사용하는 방대한 데이터가 필요하다. 이는 구글 같은 대형(그리고 주로 미국) 기술 기업들만이 감당할 수 있는 일이다.
첨단 대형언어모델을 개발하는 대부분의 기술 대기업들은 외부인이 언어모델을 사용하는 것을 제한하고 있으며 모델의 내부 작동에 관한 정보를 공개하지 않는다. 이러한 비밀성과 배타성이야말로 블룸을 연구하는 연구자들이 바꾸고자 하는 부분이다.
메타(Meta)는 이미 현 상태에서 한 걸음 물러났다. 2022년 5월 메타는 OPT-175B(Open Pretrained Transformer)라는 이름의 자체적인 대형언어모델을 출시하면서 언어모델의 코드와 모델의 학습 자료가 상세하게 설명된 로그북을 함께 공개했다.
그러나 메타의 모델은 요청할 때만 이용 가능하며 연구 목적으로는 사용을 제한하는 라이선스를 가지고 있다. 허깅페이스는 여기서 더 나아갔다. 우선 지난 1년 동안 이루어진 언어모델 개발 과정을 상세하게 담은 회의 내용을 기록해서 온라인에 업로드했다. 그리고 누구든 언어모델을 무료로 다운받을 수 있으며 연구나 상업적 애플리케이션 개발용으로도 사용할 수 있게 했다.
빅사이언스의 큰 초점은 윤리적인 고려를 나중 문제로 치부하는 대신 처음부터 모델에 포함시키는 것이었다. 대형언어모델은 인터넷에서 수집한 방대한 데이터로 학습한다. 이 점이 문제가 될 수 있다. 이러한 데이터 세트에는 수많은 개인정보가 포함되어 있고 위험한 편향을 반영하기도 하기 때문이다. 빅사이언스는 특히 대형언어모델을 위해서 어떤 데이터가 사용되고 있고 데이터가 누구의 것인지 명확하게 하는 데이터 거버넌스 구조를 개발했다. 그리고 온라인에서는 쉽게 구할 수 없는 전 세계의 다양한 데이터 세트를 공급했다.
빅사이언스는 또한 새로운 ‘책임감 있는 AI 라이선스(Responsible AI License)’를 발표했다. 책임감 있는 AI 라이선스란 서비스 약관 동의와 비슷한 것이다. 이는 법 집행기관이나 의료서비스 같은 고위험 분야에서 블룸을 사용하지 않도록 억제하고 언어모델이 사람들을 해치거나 속이거나 착취하거나 사칭하는 것을 막기 위해 고안되었다. 이번 프로젝트에 자원한 AI 연구원이자 라이선스의 공동 제작자 대니시 컨트랙터(Danish Contractor)는 라이선스가 법이 따라잡기 전에 스스로 대형언어모델을 규제하는 실험이라고 말했다. 하지만 블룸의 남용을 궁극적으로 막을 수 있는 방법은 없다.
허깅페이스의 윤리학자로서 블룸의 윤리 헌장 초안을 작성한 지아다 피스틸리(Giada Pistilli)는 이번 프로젝트를 위해 매우 초기부터 자체적인 윤리 지침을 준비했고 이러한 윤리 지침이 언어모델 개발을 위한 원칙으로 사용됐다고 말했다. 예를 들어 윤리 지침에 따라 프로젝트는 반드시 다양한 지역에서 다양한 배경을 가진 자원자들을 모집하여 외부인들이 더 쉽게 프로젝트의 연구 결과를 재생산할 수 있게 했고 연구 결과도 공유했다.
다중언어
이러한 철학은 블룸과 오늘날 이용 가능한 다른 대형언어모델 간의 중요한 차이점을 만들었다. 바로 블룸이 다양한 인간 언어를 이해할 수 있다는 점이다. 블룸은 프랑스어, 베트남어, 중국 북경어, 인도네시아어, 카탈루냐어, 힌디어를 비롯한 13개의 인도어, 20개의 아프리카 언어 등 46개 언어를 지원한다. 학습 데이터 중에서 영어는 30%에 불과하다. 블룸은 또한 13개 프로그래밍 언어를 이해한다.
이는 영어가 지배하는 대형언어모델의 세상에서는 매우 드문 일이다. 대형언어모델이 주로 영어를 사용하는 것은 이러한 모델들이 인터넷에서 가져온 데이터로 학습하기 때문에 벌어지는 또 하나의 결과이다. 온라인에서 가장 흔히 사용되는 언어가 영어이기 때문이다.
블룸이 이 상황을 개선할 수 있었던 이유는 어떤 언어가 온라인에서 많이 사용되지 않았다고 해도 해당 언어에 적합한 데이터 세트를 구축하기 위해 전 세계에서 연구자를 모집했기 때문이다. 허깅페이스의 인턴이자 아프리카 언어를 위한 자연어처리를 연구하는 단체인 마사카네(Masakhane)의 연구원인 크리스 에머주에(Chris Emezue)는 허깅페이스가 지역 정부나 대학의 기록 같은 데이터 세트를 찾기 위해 아프리카의 AI 연구원들과 워크숍을 조직했다고 밝혔다. 이러한 데이터 세트는 언어모델에 아프리카 언어를 학습시킬 때 사용할 수 있었다.
이렇게 다양한 언어를 포함하면 가난한 나라의 AI 연구원들에게 큰 도움이 될 수 있다. 그들은 언어모델이 고가의 컴퓨팅 파워를 사용하기 때문에 자연어처리에 접근하는 데 어려움을 겪는 일이 많다. 블룸을 통해 이러한 연구원들은 언어모델을 개발하고 학습시키는 과정에서 돈이 많이 드는 부분을 뛰어넘어 미래의 애플리케이션을 구축하고 모국어로 작업하기 위해 모델을 미세 조정하는 데 집중할 수 있다.
에머주에는 “자연어처리의 미래에 아프리카 언어를 포함시키려면 언어모델 학습에 아프리카 언어를 추가하는 것이 매우 중요한 단계”라고 말했다.
취급 주의
스탠퍼드 대학교의 파운데이션모델연구센터(Center for Research on Foundation Models)의 책임자 퍼시 리앙(Percy Liang)은 빅사이언스가 블룸을 중심으로 커뮤니티를 구축하는 ‘경의로운’ 일을 해왔다며, 처음부터 윤리와 거버넌스를 포함하는 빅사이언스의 접근법은 좋은 선택이었다고 평했다.
그러나 리앙은 블룸이 대형언어모델 개발에 큰 변화를 가져다줄 것으로 생각하지 않는다. 그는 “오픈AI와 구글과 마이크로소프트가 여전히 업계를 주도하고 있다”고 말했다.
궁극적으로 블룸은 대형언어모델이고 여전히 대형언어모델들이 가진 모든 결함과 위험을 가지고 있다. 오픈AI 같은 회사들은 대중에게 자신들의 모델이나 코드를 공개하지 않았다. 그들의 주장에 따르면 언어모델에 내재된 성차별적 또는 인종차별주의적 언어로 인해 대중이 사용하기에는 언어모델에 아직 큰 위험성이 있기 때문이다.
허깅페이스의 AI 연구원이자 윤리학자 마거릿 미첼(Margaret Mitchell)은 “블룸이 부정확하고 편향된 언어를 포함할 가능성이 크지만 모델에 관한 모든 것이 공개되어 있으므로 사람들이 블룸의 장단점을 파악하여 사용할 수 있을 것”이라고 말했다.
빅사이언스가 AI에 기여한 가장 중요한 점은 블룸 자체가 아니라 블룸에서 파생된 수많은 연구 프로젝트일 것이다. 예를 들어 그런 프로젝트들은 언어모델이 더 강력하게 프라이버시를 보호할 수 있도록 도움을 주거나 생물의학 연구 등 완전히 다른 분야에서 해당 기술을 활용할 방법을 생각해낼 수 있다.
블룸 학습을 함께 이끈 허깅페이스의 연구원 테븐 르 스카오(Teven Le Scao)는 “대형언어모델 하나가 역사의 흐름을 바꾸지는 않을 것”이라며 “하지만 사람들이 실제로 연구할 수 있는 좋은 대형언어모델 하나를 가지고 있는 것은 장기적으로 강력한 영향력을 발휘할 것”이라고 주장했다.
대형언어모델의 잠재적인 해악에 관해서 르 스카오는 “판도라의 상자는 이미 활짝 열렸다”며 “우리가 할 수 있는 최선의 방법은 연구원들이 연구할 수 있도록 최상의 조건을 만드는 것”이라고 덧붙였다. (By Melissa Heikkiläarchive)