The open-source AI boom is built on Big Tech’s handouts. How long will it last?

오픈소스 AI 열풍, 빅테크가 비공개로 전환한다면 지속될 수 있을까?

생성형 AI 모델의 코드에 누구나 접근할 수 있게 되면서 AI 기술 혁신에 불이 붙었다. 그러나 빅테크들이 경쟁에서 위협을 느낀다면 비공개 정책으로 전환될 수도 있다.

구글의 선임 엔지니어 루크 세르나우(Luke Sernau)가 작성한 것으로 보이는 메모가 유출됐다. 이 메모는 그동안 실리콘 밸리에서 비밀스럽게 오가던 이야기를 그대로 담고 있다. 누구나 자유롭게 이용할 수 있는 오픈소스(open-source)가 빅테크의 AI 시장 장악에 위협이 되고 있다는 내용이었다. 

요즘 들어 새로운 오픈소스 대형 언어모델이 무더기로 쏟아지고 있다. 이 모델들은 연구원 및 앱 개발자들이 주축이 된 구글의 바드(Bard)나 오픈AI의 챗GPT(ChatGPT)와 경쟁한다. 빅테크가 개발한 최고의 AI 모델들과 거의 비슷한 수준의 성능을 갖췄지만 무료로 사용할 수 있다. 

구글은 현지 시각 5월 10일, 연례 구글 개발자 콘퍼런스(I/O conference)에서 지메일, 사진, 지도에 이르기까지 모든 영역에 생성형 AI를 도입하겠다고 밝혔다. 그동안 구글과 같은 빅테크들은 AI 분야의 치열한 경쟁을 어깨 너머로 지켜보고 있었다. 세르나우의 메모에서도 “우리가 옥신각신하는 동안 제3자들이 조용히 시장을 점령해 가고 있었다”라는 언급이 있다. 

오픈소스 열풍은 여러 측면에서 좋은 현상이다. 언어모델에 대한 접근성이 좋아지면 혁신이 촉진되고 결함을 발견하기도 조금 더 수월해진다. 소수의 대기업이 비공개적으로 기술을 관리하거나 사용 방식을 결정한다면 이러한 발전은 기대하기 어렵다. 

그러나 오픈소스 열풍은 불안정하다. 대부분의 오픈소스 모델은 여전히 자금이 풍부한 대기업들의 거대 모델을 기반으로 하고 있다. 만약 오픈AI와 메타가 비공개 정책으로 전환한다면 이 열풍도 머지않아 사그라들 가능성이 높다. 

예를 들어 대부분의 오픈소스 모델은 메타 AI의 오픈소스 대형 언어모델 ‘LLaMA’를 기반으로 구축됐다. 비영리 오픈소스 단체인 일루서AI(EleutherAI)의 대규모 공공 데이터 세트 ‘파일(Pile)’을 기반으로 구축된 모델들도 있다. 그러나 일루서AI가 존재할 수 있었던 것도 오픈AI 덕분이다. 오픈AI가 세부 내용을 공개하면서 개발자들이 GPT-3의 설계 방식을 되짚으며 이해를 높일 수 있었고, 이는 독자적인 모델 개발로 이어졌다. 

일루서AI의 전무이사 겸 연구 책임자이며 컨설팅 회사 부즈 앨런 해밀턴(Booz Allen Hamilton)에서 일하는 스텔라 바이더먼(Stella Biderman)은 “메타 AI는 모델의 학습과 공유 측면에서 연구 커뮤니티에 크게 기여했다”라고 말한다. 세르나우의 구글 메모에서도 메타 AI의 중요한 역할이 언급된다. (구글은 이 메모가 구글 직원에 의해 작성된 것은 맞지만 회사의 전략을 담은 공식자료는 아니라고 MIT 테크놀로지 리뷰에 밝혔다) 

모든 상황은 바뀔 수 있다. 오픈AI는 경쟁을 우려해 기존의 공개 정책을 뒤집었다. 메타도 신생 기업들이 오픈소스 코드로 그들을 위협한다면 통제에 들어갈지도 모른다. 메타 AI의 대표 조엘 피노(Joelle Pineau)는 코드 공개에 대해 “솔직히 지금은 옳은 일을 하고 있다고 생각한다”라고 입장을 밝혔다. 그러나 그는 “향후 5년을 바라본다면 공개 정책을 계속 이어갈 수 있을까?  AI 기술이 너무 빠르게 발전하고 있기 때문에 우리도 어떤 입장을 취하게 될지 알 수 없다”라고 덧붙였다.  

이처럼 코드 접근을 제한하는 추세가 이어진다면 오픈소스를 사용하는 대중들은 사라지고, 차세대의 AI 혁신은 막대한 자금력을 가진 대형 AI 연구소들이 주도하게 될 것이다. 

AI의 제작과 사용 방식의 미래가 변화의 갈림길에 섰다. 

오픈소스 열풍

오픈소스 소프트웨어는 지난 수십 년 동안 존재해 왔다. 인터넷도 오픈소스를 기반으로 한다. 그러나 강력한 모델을 구축하려면 큰 비용이 들기 때문에 불과 1년 전만 해도 오픈소스 AI는 거의 성장하지 못했다. 그러다가 갑자기 한 번에 폭발했다. 

최근의 상황을 살펴보자. 3월 25일, AI의 무료 사용 및 공개적인 접근을 옹호하는 스타트업 허깅페이스(Hugging Face)가 챗GPT를 대체할 수 있는 AI 챗봇, ‘허깅챗(HuggingChat)’을 선보였다. 

허깅챗은 오픈소스 대형 언어모델 ‘오픈 어시스턴트(Open Assistant)’를 기반으로 구축됐다. 이 모델은 1만 3,000명의 지원자의 도움을 받아 학습됐고 약 한 달 전 대중에 공개됐다. 그러나 오픈 어시스턴트 자체가 메타의 LLaMA를 바탕으로 하고 있다. 

3월 19일에는 스태빌리티AI가 오픈소스 대형 언어모델 ‘스테이블LM(StableLM)’을 공개했다. 이 회사는 유명한 텍스트-이미지 AI 모델 ‘스테이블 디퓨전(Stable Diffusion)’의 개발사다. 그로부터 일주일 후인 3월 28일, 스태빌리티AI는 오픈 어시스턴트나 허깅챗처럼 대화에 특화된 스테이블LM의 새 버전 ‘스테이블비쿠나(StableVicuna)’를 공개했다. (스테이블LM은 GPT-4, 스테이블비쿠나는 챗GPT의 경쟁 모델로 보면 된다) 

이 외에도 스탠퍼드 대학교가 개발한 ‘알파카(Alpaca)’, 소프트웨어 회사 데이터브릭스(Databricks)의 ‘돌리(Dolly)’, AI 회사 세레브라스(Cerebras)의 ‘세레브라스-GPT(Cerebras-GPT)’ 등 새로운 오픈소스 모델들이 최근 몇 달간 쏟아져 나왔다. 이들 대부분은 LLaMA나 일루서AI의 데이터 세트 및 모델을 기반으로 구축됐다. 한편 세레브라스-GPT의 경우 딥마인드(DeepMind)의 템플릿 세트로 만들어졌다. 앞으로도 더 많은 오픈소스 AI 모델들이 등장할 것으로 예상된다. 

어떤 이들은 오픈소스가 원칙이 되어야 한다고 생각한다. AI 연구원이자 유튜브를 운영하는 야니크 킬셰(Yannic Kilcher)는 오픈 어시스턴트를 소개하는 영상에서 “모든 사람이 대화형 AI의 혜택을 누리고 소수 대기업의 손에서 벗어나게 하려는 전 세계 커뮤니티의 노력의 결과”이라고 평가했다. 

허깅페이스의 공동설립자 쥘리앵 쇼몽(Julien Chaumond)도 최근 자신의 트위터에 “오픈소스 AI를 지키기 위한 싸움을 절대 멈추지 않겠다”라는 게시물을 올렸다. 

어떤 사람들에게 오픈소스는 이익과 관련된 문제다. 스태빌리티AI는 이미지 생성 AI에서 그랬던 것처럼 챗봇에도 비슷한 방식을 적용하려 한다. 그들의 제품을 사용하는 개발자들의 혁신을 폭발시켜 이득을 보는 것이다. 이 회사는 혁신의 결과를 바탕으로 다양한 고객을 위한 맞춤형 제품을 개발해 출시할 계획이다. 스태빌리티AI의 CEO인 에마드 모스타크(Emad Mostaque)는 “혁신을 촉진하면서 그중에서 좋은 것들을 골라낸다. 세계 최고의 비즈니스 모델이 아닌가?”라고 강조했다. 

둘 중 어느 입장이 되었든 오픈소스 언어모델의 대대적 출시로 전 세계 사람들이 이 기술을 사용할 수 있게 됐다. 또한 많은 사람이 새로운 도구를 개발하고 작용 원리를 탐구할 수 있도록 영감을 주고 있다. 바이더먼은 “그 어느 때보다 지금 이 기술에 대한 접근성이 좋은 상태다”라고 설명했다. 

스태빌리티AI를 포함해 많은 생성형 AI 기업들을 고객으로 둔 법률회사 프리드 프랭크(Fried Frank)의 변호사 아미르 가비(Amir Ghavi)는 “사람들이 기술을 사용하는 방법이 놀라울 정도로 다양하다”며, “이것은 오픈소스의 본질인 인간의 창의성을 증명하는 부분이다”라고 강조했다. 

GPU 소모 작업

그러나 대형 언어모델을 처음부터 학습시키는 것은 그것을 개선하거나 수정하는 것보다 어렵다. 모스타크는 “여전히 사람들 대부분이 손을 댈 수 없는 영역이다. 우리는 스테이블LM을 개발하면서 수많은 GPU(그래픽 처리 장치)를 소모해야 했다”라고 말한다. 

스태빌리티AI의 첫 텍스트-이미지 모델 스테이블 디퓨전은 구글의 이매젠(Imagen)이나 오픈AI의 DALL-E와 비슷하거나 때로는 더 나은 성능을 보인다. 스테이블 디퓨전은 무료일 뿐만 아니라 가정용 컴퓨터로도 사용에 어려움이 없다. 스테이블 디퓨전은 지난해 이미지 생성 AI에 대한 오픈소스 개발의 불씨를 지피는데 다른 어떤 모델보다 중요한 역할을 했다. 

two doors made of blue skies swing open while a partial screen covers the entrance from the top
MITTR | GETTY

그러나 이제 모스타크는 주변의 기대치를 낮추고 싶어 한다. 스테이블LM은 GPT-4를 대적할 수준이 되지 못하기 때문이다. 그는 “아직 해야 할 작업이 많다”며 “즉시 유용한 결과를 얻을 수 있는 스테이블 디퓨전과는 다르다. 언어모델은 학습시키기가 더 어렵다”라고 설명했다. 

또 다른 문제는 모델이 커질수록 학습이 더 어려워진다는 점이다. 단순히 컴퓨터의 성능 때문은 아니다. 모델의 규모가 커질수록 학습 과정이 더 자주 중단되고 재시작되기 때문에 대형 언어모델을 구축하려면 큰 비용이 발생한다. 

바이더먼은 실제로 대부분이 개발자들이 모델을 학습시킬 수 있는 매개변수의 수에 상한선이 있다고 말했다. 대형 언어모델은 복수의 다양한 GPU에서 학습되어야 하는데 이 모든 하드웨어를 연결하는 작업이 꽤 복잡하다. “고성능 컴퓨팅 연구에서도 대형 모델의 성공적인 학습은 매우 새로운 영역이다”라고 그는 설명했다.  

정확한 수치는 기술의 발전에 따라 바뀔 수 있지만 바이더먼은 현재 기준 매개변수의 상한선을 대략 60억에서 100억 개 정도로 보고 있다. (GPT-3는 1,750억 개, LLaMA는 650억 개의 매개변수를 가지고 있다) 정확한 상관관계는 아니지만 일반적으로 모델의 규모가 커질수록 그 성능도 향상되는 경향이 있다. 

바이더먼은 오픈소스 대형 언어모델의 열풍이 계속될 것으로 내다봤다. 그러나 기본이 되는 기술을 발전시키기보다는 이미 훈련된 몇 가지 모델을 확장하거나 조정하는 데 초점이 맞춰질 것이다. 바이더먼은 “현재 대형 언어모델을 학습시킨 곳은 극소수에 불과하며 이러한 추세는 한동안은 크게 달라지지 않을 것이다”라고 덧붙였다. 

따라서 많은 오픈소스 모델이 메타 AI가 처음부터 학습시킨 LLaMA 또는 오픈소스 기술을 옹호하는 비영리 단체 일루서AI의 모델을 기반으로 만들어진다. 그리고 다른 한 곳이 더 있는데 이는 중국에 있다고 바이더먼은 설명했다. 

일루서AI는 오픈AI 덕분에 탄생할 수 있었다. 정확히는 2020년 오픈AI가 공개한 GPT-3 덕분이다. 바이더먼은 “GPT-3는 대형 AI 모델에 대한 사람들의 생각을 바꿔놨다. 이 모델은 AI의 일반적 기대에 대한 지적 패러다임의 전환을 가져왔다”라고 말했다. 

새로운 기술의 잠재력에 바이더먼과 몇몇 연구자들은 흥분을 감추지 못했다. 그들은 이 모델의 작동 원리를 이해하기 위해 코드를 훑어보기 시작했고 결국 복제하기로 결심했다. 

오픈AI는 GPT-3를 출시하지 않았지만, 바이더먼과 동료들은 모델의 구축 방식에 대해 충분히 정보를 공유했다. 당시 언어모델을 학습시킨 것은 오픈AI가 유일무이했다. 그리고 코로나19의 대유행으로 바이더먼의 팀원들은 딱히 할 일도 없었다. 바이더먼은 “아내와 보드게임을 하면서 작업을 진행했다. 1주일에 10시간, 또는 20시간을 할애하는 것도 어렵지 않았다”라고 말했다. 

그들의 진행한 첫 번째 단계는 수십억 개의 문구를 포함한 대규모 데이터 세트를 새로 구축하는 것이었다. 오픈AI가 GPT-3를 학습시키는 데 사용한 데이터 세트와 비슷한 규모다. 일루서AI는 이 데이터 세트에 ‘파일’이라는 이름을 붙였고 2020년 말에 무료로 공개했다. 

일루서AI는 이 데이터 세트로 첫 오픈소스 모델을 학습시켰다. 이 회사는 클라우드 컴퓨팅 회사로부터 지원을 받았고 가장 큰 모델을 학습시키는 데 3개월 반이 소요됐다. 바이더먼은 “만약 우리가 비용을 직접 감당했다면 약 40만 달러(약 5억 4,000만 원) 정도가 들었을 것이다. 대학의 연구 그룹이 지원받기에는 너무 큰 금액이다”라고 말했다. 

도움의 손길

이렇듯 수반되는 비용이 크기 때문에 기존 모델 이용이 훨씬 쉬운 방법이다. 메타 AI의 LLaMA는 수많은 오픈소스 프로젝트의 시작점이 되었다. 10년 전 얀 르쿤(Yann LeCun)이 조직한 메타 AI는 오픈소스 개발에 집중해 왔다. 메타 AI의 대표 조엘 피노는 오픈소스를 일종의 문화로 보고 있으며, 오픈소스가 빠르게 움직이고 무언가를 만드는 접근법 즉, 자유시장의 개념과 비슷하다고 말한다.  

피노는 오픈소스의 장점에 대해 “다양한 사람들이 기술 개발에 참여할 수 있다. 연구자나 기업뿐만 아니라 정부 기관도 이러한 모델에 접근할 수 있다”고 설명했다. 

피노와 동료들은 오픈소스 커뮤니티에서 말하는 것처럼 투명성이 중요한 기준이라고 생각한다. 피노는 “나는 회사의 연구원들이 프로젝트를 시작할 때 오픈소스처럼 생각하라고 말한다. 그러면 데이터의 사용과 모델의 개발 방식에 대한 기준이 훨씬 높아진다”라고 말했다. 

그러나 대형 언어모델은 잘못된 정보, 편견, 혐오 발언을 퍼뜨릴 위험성이 있다. 어떤 선전물을 대량으로 생산하거나 악성코드를 만드는 데 이용될 수 있다. “투명성과 안전성 사이에서 균형을 잘 맞춰야 한다”라고 피노는 강조했다. 

때때로 이 균형은 메타 AI가 새 모델을 공개하기 어렵게 만든다. 예를 들어 피노의 팀이 페이스북 사용자 데이터로 모델을 학습시켰다면 개인정보가 유출될 가능성이 크기 때문에 내부용으로 사용해야 한다. 또는 연구 목적으로만 사용되도록 라이선스를 붙여 모델을 공개할 수도 있다. 

LLaMA도 처음에는 연구자들에게 제한적으로 공개됐다. 그러나 며칠 만에 인터넷 포럼 4chan에 LLaMA 전체 모델의 다운로드 링크와 실행 방법이 게시됐다. 피노는 “나는 여전히 이 모델이 투명성과 안전성 사이에서 균형을 잘 잡고 있다고 생각한다. 그래도 이런 일이 다시 일어난다면 실망스러울 것이다. 앞으로 제품 공개가 더 어려워질 수 있기 때문이다”라고 말했다. 

“우리는 이러한 공개 방식에 있어 마크 저커버그(Mark Zuckerberg) 등 회사의 경영진으로부터 강력한 지지를 받고 있지만, 일이 쉽게 풀리진 않는 것 같다”라고 피노는 덧붙였다. 

메타 AI는 업계에 미치는 파급력이 크다. 피노는 “어떤 미친 짓을 할 때 그 책임은 작은 스타트업보다 큰 회사에서 더 커지게 마련이다”라고 말한다. “현재 수천 명의 개인을 대상으로 모델을 공개하고 있지만 문제가 커지거나 안전을 위협한다고 판단되면 기존 방식을 중단할 것이다. 그리고 비밀유지 계약을 체결한 신뢰성 높은 학계 협력기관으로 공개 범위를 제한하고, 설사 연구 목적이 있더라도 조건이 충족되지 않으면 모델을 사용하지 못하게 막을 것이다”라고 입장을 밝혔다. 

만약 이 상황이 현실이 된다면 오픈소스 생태계의 많은 모델이 메타 AI의 다음 버전을 사용하지 못하게 된다. LLaMA가 없어지면 알파카, 오픈 어시스턴트, 허깅챗 등과 같은 오픈소스 모델의 성능은 급격히 떨어질 것이다. 그리고 차세대의 오픈소스 혁신가들은 현재 가진 기회를 잃어버릴 것이다. 

남겨진 과제

많은 사람이 오픈소스의 위험성과 혜택을 비교하고 있다. 

메타 AI가 LLaMA를 공개한 시기에 허깅페이스는 사람들이 플랫폼에서 모델을 내려받기 위해 접근을 요청하고 승인받아야 하는 ‘게이팅 메커니즘(gating mechanism)’을 도입했다. 모델을 사용할 정당한 이유를 가진 사람을 허깅페이스가 심사해 선별적으로 다운로드할 수 있도록 하는 것이다.  

허깅페이스의 수석 윤리 과학자인 마거릿 미첼(Margaret Mitchell)은 “나는 오픈소스를 옹호하지 않으며 비공개 방식이 낫다고 생각한다”라고 밝혔다. 

미첼은 강력한 모델이 대중적으로 사용되는 부정적인 예시로 당사자의 동의를 얻지 않은 음란물을 들었다. 미첼은 많은 사람이 이러한 음란물 제작에 이미지 생성 AI를 사용하고 있다고 지적했다. 

과거 구글에서 일하면서 윤리적 AI(Ethical AI) 팀을 공동 조직한 미첼은 현재의 갈등 상황을 이해하고 있다. 미첼은 자신이 ‘책임 있는 민주화(responsible democratization)’라고 부르는 접근법을 선호한다. 책임 있는 민주화는 메타 AI의 접근법과 비슷하다. 모델이 문제가 되거나 오용될 위험성이 있으면 통제된 방식으로 공개하는 것이다. 미첼은 “오픈소스에 대한 이상적인 생각은 좋지만, 책임을 위한 일종의 메커니즘을 마련하는 것도 필요하다”라고 강조했다. 

오픈AI도 기존의 공개 정책을 뒤집었다. 최근 오픈AI는 챗GPT의 기반이 되는 대형 언어모델의 새로운 버전인 GPT-4를 발표하면서 기술 보고서에 다음과 같은 문장을 넣었다. “GPT-4와 같은 대형 언어모델의 경쟁적 환경과 안전성을 고려해, 이 보고서에는 아키텍처(모델의 크기가 포함됨), 하드웨어, 학습 컴퓨팅, 데이터 세트 구조, 학습 방법 등에 대한 자세한 내용은 포함하지 않는다” 

이 새로운 제한은 이제 오픈AI가 구글 등과 경쟁하는 이익 창출 목적을 가진 회사임을 나타낸다. 동시에 회사의 기본적인 생각도 변화되었음을 의미한다. 오픈AI의 공동설립자이자 수석과학자인 일리야 수츠케버(Ilya Sutskever)는 <더 버지(The Verge)>와의 인터뷰에서 과거의 공개 정책은 실수였다고 언급했다. 

오픈AI의 정책 연구원인 산디니 아가왈(Sandhini Agarwal)은 오픈AI가 공개 전략을 변경했음을 확실히 했다. 그는 “과거에는 어떤 모델이 오픈소스였다면 소규모의 아마추어 개발자 정도가 관심을 가졌지만, 이제는 전체적인 환경이 바뀌었다. 오늘날 오픈소스는 개발을 가속화하고 경쟁을 치열하게 만든다”라고 설명했다. 

그렇다고 오픈소스가 문제만 있는 것은 아니다. 3년 전 오픈AI가 GPT-3의 자세한 정보를 공개하지 않았다면 일루서AI도 존재하지 않았을 것이다. 

오늘날 일루서AI는 오픈소스 생태계에서 중심적 역할을 한다. 그들은 이후에도 여러 대형 언어모델을 구축했고 파일은 스태빌리티AI의 스테이블LM 등 수많은 오픈소스 프로젝트의 학습에 사용됐다. (스태빌리티AI의 CEO 에마드 모스타크는 일루서AI의 이사회에 속해있다)

오픈AI가 정보를 제한했다면 이 모든 일들이 불가능했을 것이다. 일루서AI는 메타 AI와 함께 수많은 오픈소스 혁신을 가져왔다. 

그러나 오픈AI가 GPT-4부터 향후 GPT-5, 6에 이르기까지 정보를 제한하면 오픈소스 개발자들은 다시 소수 대기업의 그늘에 머물게 된다. 이들은 새로운 버전을 개발할 수도 있고 이 버전들은 어쩌면 구글의 몇몇 제품을 위협할 수 있을지도 모른다. 그러나 지난 세대의 모델에서 벗어나긴 힘들다. 그리고 AI 기술의 진정한 발전과 도약은 비공개적으로 이루어지게 될 것이다. 

이것은 중요한 문제가 될까? 빅테크의 비공개 정책과 오픈소스에 미치는 영향에 대한 생각은 AI를 개발하는 주체와 방식을 어떻게 바라보는지에 따라 달라질 수 있다. 

가비는 “AI는 향후 수십 년 동안 사회의 조직 방식을 변화시킬 것이다. AI의 검증과 투명성을 위한 대대적인 시스템을 갖추는 것이 소수에 권력을 집중시키는 편보다 낫다”라고 주장했다. 

바이더먼도 가비의 생각에 동의한다. “모두가 오픈소스 방식을 채택할 필요는 없다. 그러나 상업적 성공에 재정을 투자하지 않은 사람들이 AI 기술을 개발하고 연구하는 것은 매우 중요하다”라고 강조했다. 

한편 바이더먼은 위험성도 강조했다. “사람들이 생각하는 것보다 나는 오픈AI의 입장 변화를 비판적으로 보지 않는다. 그들의 기술 공개에는 실질적인 위험성이 수반된다”라고 설명했다. 

오픈AI는 단지 안전을 우선시한 결정이라고 말한다. 오픈AI의 신뢰안전팀 책임자인 데이브 윌너(Dave Willner)는 “투명성이 나쁘다는 것은 아니다. 우리는 투명성과 안전성 양쪽에서 균형을 맞출 방법을 찾고 있다. AI 기술이 강력해지면서 이 부분에 대한 요구가 증가하고 있다”라고 말했다. 

이어서 윌너는 “오늘날 AI 분야의 다양한 기준과 사고방식은 협업과 투명성에 가치를 두고 상호 협력적으로 개발을 진행하는 학술 연구 커뮤니티들을 통해 형성된 것이다. 그러나 AI 기술이 발전함에 따라 약간의 변화는 필요할지도 모른다”라고 말을 맺었다. 

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.