Chinese tech giant Baidu releases its answer to ChatGPT

바이두가 ‘불완전한’ 중국판 챗GPT ‘어니봇’을 공개한 이유

중국의 테크 기업 바이두가 GPT-4 출시 이틀 만에 챗GPT에 대항하는 언어모델 ‘어니봇(Ernie Bot)’을 출시했다. 중국형 챗GPT의 미래는 밝을 것인가? 바이두 CEO의 말에 따르면 아직은 확실치 않다.

3월 16일 바이오의 공동창업자이자 CEO인 리옌훙(李彦宏, Robin Li)이 베이징에서 열린 행사에서 바이두의 새로운 대형 언어모델 ‘어니봇(Ernie Bot)’을 공개했다. 리옌훙은 바이두의 이미지 생성 AI가 만든 그림과 함께 어니봇이 할 수 있는 일들을 선보였다. 그중에는 수학 문제 풀이, 마케팅 카피 작성, 중국 문학 작품에 대한 질문에 답변하기, 멀티미디어에 대한 반응 생성 등이 포함됐다.

바이두는 이번 제품 출시를 수개월 전부터 계획했었지만, 오픈AI의 GPT-4가 예상을 깨고 불과 이틀 전인 3월 14일에 출시되면서 방해받았고, 이는 CEO를 포함하여 바이두의 활동을 지켜보는 모든 이들에게 분명한 기준점이 되었다. 리옌훙은 발표를 시작하며 “사람들은 어니봇을 챗GPT, 심지어 GPT-4와 비교하고 있다. 이는 매우 높은 기준이다”라고 말했다.

어니봇이라는 이름은 ‘지식 통합을 통한 강화된 표현(Enhanced Representation from kNowledge IntEgration)의 약자로, 중국어로는 원신이옌(文心一言)으로 불린다.

예상할 수 있듯 어니봇은 중국과 관련한 역사적 사실을 설명하거나 중국 전통 시를 쓸 때 등 중국 문화와 관련된 특정한 작업을 더 잘 수행한다. 리옌훙은 바이두가 중국기업이기에 중국어 이해 능력에서 다른 사전학습된 대형 언어모델들보다 뛰어나야 한다고 말한다.

이번 출시에서 가장 주목할 점은 챗GPT와 GPT-4에는 없는 어니봇의 멀티모달 출력 기능이었다. 오픈AI는 GPT-4가 냉장고 속 내용물 사진을 분석해 레시피 제안을 내놓는 능력을 갖췄다고 자랑했지만, GPT-4는 텍스트로만 결과물을 생성한다. 리옌훙은 어니봇과 상호작용한 사전녹화 영상을 보여줬다. 영상 속에서 어니봇은 미래적인 도시 교통 시스템 일러스트를 생성하고, 중국 방언을 사용해 텍스트 답변을 읽고, 동일한 텍스트를 기반으로 비디오를 편집하고 자막을 달았다. 그러나 출시 이후 중국 언론이 진행한 테스트에서는 해당 비디오 생성에 실패했다.

중국의 대중들은 챗GPT의 대안을 갈망해왔고, 오픈AI와 중국 정부 모두 중국에 거주하는 개인이 미국 챗봇인 챗GPT를 사용하는 것을 금지했다.

현재까지 어니봇은 극히 제한된 중국 크리에이터들만이 사용할 수 있다. 기업도 API 접근 권한을 신청할 수 있지만 바이두는 이 기술이 소비자에게 적용될지 여부는 밝히지 않았다. 바이두가 약속한 대로 어니봇이 바이두의 검색엔진이나 자율주행차 등 다른 제품들에 언제 통합될 수 있을지도 불분명하다.

챗GPT와 GPT-4가 출시되었을 때와 비교하면 어니봇의 출시는 조금 서두른 느낌이었다. 리옌훙의 발표에서는 실시간 데모가 아닌, 사전 녹화된 다섯 개의 세션 영상만을 사용했다. 리옌훙 역시 어니봇은 아직 불완전하며, 더 많은 사용자에게 도달하면 개선될 것이라고 반복해서 말했다. 발표 당일 바이두의 주가는 6.4% 하락했고, 소셜미디어는 실망스러운 반응으로 가득찼다.

리옌훙은 그런 반응을 대비한 듯하다. 그는 발표에서 “사람들은 한동안 나에게 ‘왜 어니봇을 이렇게 빨리 출시하는 것인지’ ‘준비가 되어 있는지’ 물어왔다”고 말했다. “개인적으로 본 내부 테스트 결과로는 어니봇은 완벽하지 않다. 그러면 왜 오늘 출시하려고 하나? 시장이 이를 요구하기 때문이다.”

최초가 되기 위한 경주

중국 기업이나 연구자들이 이미 챗GPT 스타일의 챗봇을 몇 가지 출시했지만, 그중 만족할 만한 결과를 보여준 제품은 없었다. 중국 상하이의 푸단 대학교 연구진이 개발한 영어 챗봇 ‘모스(MOSS)’는 지난 2월 말 출시된 지 하루 만에 서버가 다운될 정도로 수요가 높았다. 중국 스타트업 미니맥스(MiniMax)는 3월 초 ‘인스포(Inspo)’라는 챗봇을 출시했지만, 오픈AI가 개발한 GPT-3.5 모델을 단순히 재포장한 것일 뿐이라는 의혹을 받아왔다.

많은 사람은 바이두가 챗GPT에 대항할 최초의 중국기업이 될 것이라고 예상했다. 바이두는 2019년 GPT-3에 해당하는 ‘어니 3.0(Ernie 3.0)’을 출시했다. 2022년에는 꽤 강력한 성능의 텍스트-이미지 모델인 ‘어니-비엘지(Ernie-ViLG)’를 출시했다.  

바이두는 중국의 경쟁사들 사이에서 두각을 나타낼 수 있는 몇 가지 장점을 갖고 있다. 바이두는 어니 모델들을 교육하고 훈련하는데 사용되는 자체 AI 컴퓨터 칩 ‘쿤룬(Kunlun)’을 설계하여 반도체를 둘러싼 미-중 갈등으로부터 기업을 보호할 수 있다. 또한 바이두는 2000년부터 검색엔진, 온라인 백과사전, 토론 포럼, 미디어 퍼블리싱 플랫폼을 구축하여 다양한 독점 자원의 중국어 교육 자료를 이용할 수 있다. 바이두의 보도자료에 따르면 어니봇은 ‘수조 개의 웹페이지, 수백억 개의 검색 및 이미지 데이터, 수천억 개의 일일 음성 데이터, 5,500억 개의 지식 그래프’로 훈련받고 있다.

출시 발표에서 리옌훙은 바이두를 서구의 빅테크 기업과 비교했다. 그는 “바이두는 글로벌 빅테크 기업 중 챗GPT의 대안 모델을 자체 개발한 첫 번째 회사라고 말할 수 있다. 마이크로소프트는 오픈AI의 액세스를 활용할 뿐이며, 구글, 메타, 아마존 중 누구도 챗GPT와 동일한 종류와 수준의 제품을 출시하지 않았다”고 말했다.

GPT-4와의 필연적인 비교

GPT-4의 출시로 많은 사람이 두 제품을 비교하려는 것은 당연하지만 사실 어니봇과 GPT-4을 비교하기는 어렵다. 두 기업 모두 자사 챗봇에 대한 기술적 세부 정보를 공개하지 않고 있기 때문이다.

오픈AI와 마찬가지로 바이두도 어니의 최신 버전에 사용한 매개변수의 수를 밝히지 않기로 했다. 매개변수의 수는 일반적으로 그 모델의 성능을 나타내는 지표로 간주된다. 두 기업의 지난 버전 수치는 공개되어 있다. 2020년 6월 출시된 오픈AI의 GPT-3의 매개변수는 1,750억 개이며, 2021년 12월에 출시된 바이두의 어니3.0 타이탄(Ernie 3.0 Titan)은 2,600억 개의 매개변수를 보유했다.

어니봇은 GPT-4처럼 이미지를 분석할 수는 없지만, 더 많은 출력 옵션을 제공한다. 출시 발표에서 어니봇은 중국 남서부의 방언인 쓰촨어로 된 텍스트 답변을 읽어냈다. 리옌훙은 어니봇이 광둥어, 민난어, 둥베이 등 다른 중국어 방언 버전으로도 음성을 생성할 수 있다고 밝혔다. 그러나 답변의 품질은 다른 문제일 수 있다. 중국의 기술 매체인 X핀(X.Pin)은 출시 후 실시간 방송에서 어니봇과 GPT-4에 동일한 질문을 중국어로 던졌다. 바이두의 어니봇은 대부분의 질문에 일관된 답변을 할 수 있었지만, 더 많은 실수를 저질렀다. 어니봇은 중국 역사에 대한 사소한 질문에도 정확하게 답하고, 질문이 제기된 맥락을 기억하고, 미니 게임 제작을 위한 코드를 생성하는 데 어려움을 겪었다. 이 매체는 또한 어니봇의 비디오 생성 능력을 시험할 수 없었다. 어니봇이 데이터를 편집하고 처리하는 데 시간이 필요하다는 이유로 비디오 생성을 거부했기 때문이다.

파트너사를 위해 서두르다

금주 초, <월스트리트저널(Wall Street Journal)>은 바이두가 어니봇의 대규모 출시를 위해 직원들에게 공휴일 내내 일할 것을 요구했고, 어니봇의 답변을 검토하기 위한 계약직을 추가로 고용했으며, 자사의 다른 AI팀으로부터 엔비디아의 A100과 같은 자원을 모았다고 보도했다.

그 후 바이두의 새로운 챗봇이 대규모 배포될 준비가 제대로 되지 않았다는 다른 신호가 감지됐다. 바이두는 이전에 어니가 자율주행차와 플래그십 검색 엔진 등 자사의 많은 제품군에 통합될 것이라고 밝혔었지만, 이번 제품 출시에서는 그러한 통합이 어떻게 작동하는지에 대한 애플리케이션이나 설명이 전혀 없었다.

많은 사람들은 이번 출시 행사에서 사전녹화 영상으로만 챗봇과의 상호작용을 보여줬다는 점에 실망했다. 사전녹화 영상은 쉽게 검열되거나 편집될 수 있기 때문이다. 또한 바이두가 쇼케이스에 선보인 멀티모달 기능 대부분은 바이두가 이미 보유한 AI 도구로도 구현 가능하다는 점도 지적했다. 바이두는 2022년 이미지 생성 AI, 2020년 출시한 비디오 편집 프로그램을 출시한 바 있다. 따라서 이번에 보여준 혁신은 이러한 기능들을 더 접근성을 높은 하나의 인터페이스에 통합한 것에 가깝다는 것이다.

바이두는 수년간 다양한 종류의 AI 모델을 개발해왔지만, 어니봇은 기업 사용자들이 더 쉽게 채택할 수 있도록 자사의 기존 기능을 하나로 묶은 것으로 보인다.

이번 출시 행사의 주요 대상이 일반 대중이 아닌 기업 고객이었다는 점은 분명하다. 리옌훙은 발표에서 “어니봇은 검색엔진과 인터넷 기업에만 영향을 주는 것이 아니라, 모든 기업에 영향을 미칠 것이다”라며 “어니봇은 모든 기업과 고객 간의 거리를 좁힐 것이다”라고 말했다.

바이두에 따르면 제품 출시 전 650개 기업이 어니봇을 사용하기 위해 가입했으며, 출시 행사 이후 3만여 개 이상의 기업이 API 액세스를 신청했다. 컴퓨터 제조업체 레노버(Lenovo), 여행 포털사이트 트립닷컴(Trip.com)과 몇몇 중국 자동차 회사가 어니봇에 관심을 보인다는 보도가 쏟아졌다. 이들의 파트너십이 어떤 형태로 이루어질지는 아직 알려지지 않았지만, 바이두가 향후 수개월 내에 어니봇의 API를 출시하면 더 자세한 내용을 확인할 수 있을 것이다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.