Mass-Collaborative Open-source Large AI Models Set to Lead AI Democratization

AI 민주화를 이끄는 오픈소스 방식의 대규모 AI 자연어 모델

디지털 경제의 시대에 데이터의 양극화와 컴퓨팅 파워 격차는 부의 편중을 낳을 수 있지만 AI 민주화는 모두에게 AI 기술의 접근을 가능하게 해준다. 전 세계의 연구자들이 공동으로 참여한 빅사이언스(BigScience) 프로젝트는 블룸(BLOOM)을 개발하는 데 성공했다. 세계 최대의 다국어 언어 모델 블룸이 보여준 개방성은 폐쇄적인 대규모 AI 개발 방식에 신선한 충격을 던져 주었고 AI 민주화를 앞당겼다는 평가를 받고 있다.

AI 민주화’가 필요한 이유

데이터 수집의 양극화와 컴퓨팅 파워의 차이가 벌어지면 디지털 경제에서 부의 편중이 심화될 수 있다. 그렇지만 누구든지 혁신적 기술을 평등하게 사용할 수 있도록 쉬운 접근이 가능하다면 ‘사회적 선(social good)’도 증가하게 된다. 복잡한 지식과 많은 비용이 필요한 인프라를 갖추지 않고도 AI 도구, 알고리즘, 플랫폼을 이용할 수 있다면 그 혜택은 모두에게 돌아갈 수 있다. 이것이 바로 ‘AI 민주화’가 필요한 이유이다. ‘머신러닝의 민주화’ 또는 ‘AI 민주화’는 오픈소스 데이터 세트, AI 도구, 고성능 컴퓨팅 플랫폼의 접근성 확대라는 의미로 이해된다.

최근 AI 민주화의 초점은 모두가 사용할 수 있는 기술 도구, 서비스, 플랫폼의 개방성에 맞추어져 있다. 데이터 분석과 머신러닝에 특화된 클라우드 플랫폼, 쥬피터 노트북, Auto ML 같은 도구들이 AI 민주화의 대표적인 사례들이다.

AI의 대중화

대규모 AI 모델의 경우 놀라운 성능을 발휘하기 위해 하드웨어와 운영 비용에 막대한 예산이 소요된다. 비영리 단체, 중소기업의 연구자, 스타트업, 대학 연구원 등은 그러한 개발 비용을 감당하기가 불가능하다. 그렇지만 AI 민주화는 첨단 AI 기술의 혜택을 누구든지 공평하게 누리도록 AI 대중화의 시대를 열고 있다.

AI 민주화의 효과를 기업 내에 한정해 보면 비즈니스 조직의 직원들이 AI를 이용하고 혜택을 받을 수 있도록 전환하는 것이다. 여기에는 AI 민주화가 더 많은 조직 내부의 혁신과 생산성 향상을 가져올 것이라는 기대가 깔려 있다. 즉, 직원들이 특별한 교육을 받지 않고도 AI 애플리케이션 개발에 필요한 도구, 데이터를 쉽게 이용할 수 있다면 더 많은 혁신이 가능하다는 것이다. 기업 내에서 AI 민주화를 강조하는 현상은 데이터 분야 전문인력의 부족과 관련되어 있다.

빅테크의 정치경제학

구글 등 빅테크 기업들에서도 AI 민주화가 화두로 자리잡있다. 자사가 개발한 기술 도구, 서비스, 플랫폼을 누구든지 쉽게 이용할 수 있음을 적극적으로 알려서 친화적 이미지를 제고하려는 목적이다. 이처럼 빅테크 기업들은 AI 도구, 데이터, 알고리즘에 대한 쉬운 접근을 강조하지만 실제로 AI 민주화를 어떻게 정의하는지는 불분명하다.

빅테크 기업들은 데이터를 모으고 분석하는 도구와 AI 시스템 개발에 막대한 자금을 쏟아부으며 글로벌 패권을 노린다. “모두가 이용 가능한 AI”라는 가치를 내세우지만 그 이면에서는 자사의 AI 모델의 활용도를 높이고 자사 중심 AI 생태계를 구축하려고 한다.

빅테크 기업들이 AI 민주화를 슬로건으로 내세우기에는 부자연스러운 측면이 있다. AI 민주화의 진정한 가치는 접근성 확대를 통한 평평한 AI 개발 환경 만들기라고 할 수 있다. 그러나 AI 민주화는 기울어진 운동장을 실제로 평평하게 만들기보다 일부 빅테크 기업들이 AI 생태계를 확장하기 위한 슬로건으로 전락할 수도 있다.

독일 보훔 루르대(Ruhr-University Bochum)의 안드레아 수드만(Andreas Sudmann) 교수는 빅테크가 외치는 AI 민주화는 빅테크 기업들의 정치·경제적 입장과 상반되므로 한계를 내포하고 있다고 말한다. 우선 빅테크 기업들이 장악한 AI 시스템과 알고리즘은 시장을 반경쟁적 상황으로 이끌었다. 또한 선거철에 소셜 미디어에 범람하는 가짜 뉴스를 방치하여 분열을 조장했다. 빅테크의 내부 고발자들은 수익화를 앞세우는 빅테크 경영진의 반사회적 행태를 고발하여 파장을 불러일으킨 바 있다. 미국 의회는 빅테크의 시장 지배력을 제한하는 법안들을 발의했고 유럽연합은 AI 법안을 준비 중이다.   

누가 AI 민주화에 기여하나?

많은 IT 기업들은 자사의 AI 도구, 데이터 세트, 플랫폼을 홍보하기 위해 ‘모두를 위한 AI‘ 또는 ‘AI 민주화’를 반복적으로 사용하여 비즈니스에 명분을 부여한다. 그 결과 AI의 대중화가 일부 선도적 기업들의 손에 달려있다는 인상마저 준다. 그러나 IT 기업들뿐만 아니라 포용적(inclusive) AI를 추구하는 비영리단체들, 빅사이언스(BigScience) 같은 협업 연구 프로젝트, 오픈소스 연구자, 대학 연구자들도 AI 민주화에 크게 기여하고 있다.   

MIT가 개발한 대화형 데이터 과학 시스템 노스스타(Northstar)

예컨대 MIT 대학원생들은 몇 줄의 코드만 작성하면 금융 동향, 질병 확산 등 데이터 분석 모델을 자동으로 생성하는 도구를 개발하여 ‘데이터 과학의 민주화’에 기여하고 있다. 이 도구는 복잡한 데이터 세트의 패턴을 분석하여 통찰력을 얻을 수 있는 분석 모델을 자동으로 생성하여 비통계학자들의 지원한다. 역시 MIT에서 개발된 대화형 데이터 분석 시스템 노스스타(Northstar)은 이용자가 손가락이나 디지털 펜으로 터치 스크린 위에 데이터 세트를 ‘끌어다 놓기만 하면(drag-and-drop)’ 그 즉시 데이터 분석을 위한 머신러닝 모델을 생성한다. 그 결과 데이터 과학을 전혀 모르는 커피숍 주인이라도 앞으로 몇 주 동안의 매출량을 미리 예측하고 구매해야 하는 커피의 분량을 가늠할 수 있다.

이런 도구들은 데이터 과학 분야의 병목 현상을 해결하는데 매우 유용하다. 앞으로는 전문 교육을 받지 않더라도 데이터와 사용자 친화적인 분석 도구를 이용하여 통계 모델을 생성할 수 있다. 데이터 분석 지식이 없이도 통계 모델링이 가능해지는 이유는 분석 도구들이 적합한 데이터 분석 기법을 자동적으로 선택하고, 데이터 분석 영역의 특수성을 고려한 데이터 추출까지도 자동화되고 있기 때문이다.  

폐쇄성 vs. 개방성

대규모 자연어 모델(LLM) 개발 분야에서도 AI 민주화를 둘러싼 논의가 활발하다. 그렇다면 람다(LaMDA), 블룸(BLOOM), OPT-175B, 스패로(Sparrow) 가운데 어떤 모델이 AI 민주화에 가장 가까운 것일까?

오픈 AI(OpenAI)의 GPT-3와 구글의 람다는 방대한 텍스트 데이터 기반으로 훈련한 딥러닝 알고리즘이다. 그러나 훈련과정에 사용한 데이터와 언어모델 코드를 공개하지 않아 외부 개발자는 어떤 방식으로 학습을 거쳤는지 알 수 없다. 대규모 자연어 언어 모델을 개발하는 대다수는 언어모델의 작동 방법을 공개하지 않고 비밀성과 배타성을 유지한다.

반면, 60개 국가들에 위치한 250개 연구기관들에 소속된 1,000명이 넘는 AI 연구자들이 참여한 대규모 협업(mass-collaboration)을 통해 개발된 블룸은 폐쇄적인 AI 개발 흐름에 신선한 충격을 던져 주었다. 블룸(BLOOM)은 빅사이언스 이니셔티브가 만든 대규모 오픈소스 오픈 엑세스 다국어 언어 모델(BigScience Large Open-science Open-access)의 약자이다. 국제적 협업연구 프로젝트인 빅사이언스(BigScience)는 세계 최대 규모의 다국어 언어 모델로 여겨지는 블룸을 개발하고 학습과정에 사용한 데이터 세트, 코드, 모델의 성능평가 방법까지 모두 공개했다.

거대한 언어모델을 학습시키려면 고가의 컴퓨팅 파워라는 하드웨어와 함께 방대한 데이터가 필요하다. 블룸은 프랑스 국립과학연구원(CNRS)이 제공한 슈퍼컴퓨터를 이용하였고 세계 각국의 다양한 언어로 작성된 데이터 세트로 훈련을 거쳤다.

오픈소스 프로젝트 마사카네(Masakhane)는 아프리카의 토착 언어, 아랍어 방언, 나이지리아 등 지역별로 특이한 영어 사용법을 포함한 2,000개 아프리카 언어의 기계 번역을 목표로 한다. 마사카네는 “함께 건설한다”는 뜻의 줄루어다. 다양한 아프리카어로 이용가능한 AI 모델이 개발되어 무료로 공개된다면 저소득 국가들의 AI 연구자들에게 상당한 도움이 될 전망이다.

메타(Meta) 역시 AI를 활용한 대규모 자연어 기계번역 프로젝트 NLLB(No Language Left Behind)를 진행 중이다. NLLB는 언어 장벽 때문에 디지털 격차 문제를 겪고 있는 인구를 돕겠다는 목적에서 시작되었다. 메타는 외부의 기계 번역 연구자와 개발자들이 활용할 수 있도록 NLLB의 데이터 세트와 모델의 코드까지 공개했다. 메타는 최근 또 다른 OPT-175B 대규모 자연어 모델도 무료로 공개하였다. 사전학습 모델, 코드, 로그북, 언어모델의 개발과정을 담은 미팅 기록까지 공개했다는 점에서 눈길을 끈다.

메타가 공개한 OPT-175B

대규모 자연어 모델의 AI 민주화 수준

대규모 자연어 모델들을 비교하자면 아래와 같다. 기존의 모델들은 폐쇄성이 두드러진 반면 블룸과 OPT-175B는 높은 투명성과 개방성을 보여주었고 오픈소스로 공개되어 AI 민주화 수준도 높게 평가된다. GPT-3와 람다는 영어만 가능하지만, 블룸에서는 46개 자연어와 13개 프로그래밍 언어를 이용할 수 있다. 다만, 블룸에 한국어는 포함되지 않았다.

     GPT-3LaMDA  OPT-175B   BLOOM
개발자 오픈AI 구글  메타  빅사이언스
 파라미터 1,750억 개 1,370억 개1,750억 개1,760억 개
 언어 영어 영어영어46개 자연어
 접근성 요청 후 이용 요청 후 이용요청 후 이용제한 없음
 사용료 유료화 무료  무료  무료
 사용제한 배타적 라이선스 비상업적 목적비상업적 목적 상업적 이용
 언어모델 코드 비공개 비공개  공개  공개
 로그북(버그,오류) 비공개 비공개  공개  공개
 성능평가 방법 비공개 비공개  비공개  공개
 AI 윤리 헌장 없음 없음  없음  있음
 책임 있는 AI 없음 없음  가이드라인 제시  라이선스 제시

* 출처: 필자 작성

대규모 자연어 모델들은 성능과 파라미터 규모는 급격히 커졌지만 여전히 드러나지 않은 결점과 오남용 위험성을 안고 있다. 예컨대 인종차별·성차별적 표현을 앵무새처럼 말하거나 편향성을 드러내는 등 불완전한 단계에 있다. 인터넷에서 방대한 양의 데이터와 텍스트를 긁어 학습하므로 해악적 편향이 불가피하게 반영된다. 대규모 자연어 모델의 개발과 이용에 책임이 동반되어야 한다. 블룸은 오남용 방지를 위해 ‘책임 있는 AI 라이선스’와 ‘AI 윤리 헌장’까지 마련하여 공개했다. 딥마인드의 스패로는 대화 과정에서 협박적이거나 모욕적인 발언을 제한하는 등 안전한 작동에 중점을 두었다.

오픈 AI는 2020년부터 대규모 자연어 모델 GPT-3를 유료로 전환했다. 오직 하나의 기업 마이크로소프트만이 GPT-3를 사용할 수 있도록 라이선스를 부여했다. 마이크로소프트(MS)는 GPT-3를 이용하여 새로운 제품과 서비스를 개발 중이다. 오픈 AI의 CEO 샘 알트만(Sam Altman) 최고경영자(CEO)가 GPT-3를 수익용 사업으로 전환한 결정은 그가 과거에 마이크로소프트와 함께 공개적으로 밝혔던 AI 민주화에 대한 비전과 반대되는 행보이다. 그 배경에는 막대한 초거대 AI 개발 비용을 감당해야만 하는 현실적 이유가 작용했던 것으로 보인다.

만일 블룸, OPT-175B, NLLB-200 등 오픈소스로 공개된 대규모 자연어 모델들의 성능이 우수하다는 평가를 받게 된다면 폐쇄형 대규모 자연어 모델들에 대한 경쟁력 있는 대안으로서 인식될 가능성이 높다.

* 최은창은 MIT 테크놀로지리뷰 한국판 편집장이며, 옥스퍼드대 법대 방문학자, 과학기술정책연구원(STEPI) 펠로우, 예일대 로스쿨의 정보사회프로젝트(Yale ISP) 펠로우로 연구했다. 저서로 《레이어 모델》,《가짜뉴스의 고고학》, 공저로 《인공지능 윤리와 거버넌스》,《인공지능 권력변환과 세계정치》, 20개의 핵심 개념으로 읽는 디지털 기술사회》 등이 있다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.