
챗GPT보다 더 강력한 GPT-4 출시, 하지만 베일에 가려진 오픈 AI
오픈AI가 마침내 차세대 대형 언어모델인 GPT-4를 공개했다. GPT-4가 개발 중이라는 소문은 작년부터 많이 있었다. 샌프란시스코에 본사를 둔 오픈AI가 마지막으로 기습 출시했던 챗GPT의 성공을 따라잡기는 어려워 보였지만, 오픈AI는 GPT-4를 더 크고 우수하게 만들었다.
그러나 오픈AI는 GPT-4가 얼마나 크고 왜 더 나은 모델인지는 말하지 않는다. GPT-4의 출시는 오픈AI의 역사에서 가장 비밀스러웠고, 오픈AI는 이제 비영리 연구소에서 영리 추구형 기술 회사로의 완전한 전환을 알리고 있다.
오픈AI의 최고 과학자 일리야 수츠케버(Ilya Sutskever)는 출시 발표 한 시간 후, GPT-4 팀과 진행한 화상통화에서 “지금으로선 말할 수 있는 것이 없다”며 “생성 AI 시장에서의 경쟁이 꽤 치열하기 때문”이라고 말했다.
GPT-4는 멀티모달 대형 언어모델로 텍스트와 이미지에 모두 반응할 수 있다. 냉장고에 있는 내용물 사진 한 장을 주고 무엇을 만들 수 있을지 물어보면, GPT-4는 사진 속 재료들을 사용하는 레시피들을 제안하려 할 것이다. 수츠케버는 GPT-4가 농담섞인 설명에도 능하다며 “밈(meme) 하나를 보여주면, GPT-4는 그 밈이 웃긴 이유에 대해서 말해줄 수 있다”라고 말했다.
GPT-4 사용은 대기자 명단에 등록한 사용자와 프리미엄 유료 챗GPT 플러스 가입자만 가능하며, 한정된 기능을 텍스트 전용으로만 이용할 수 있다.
앨런 AI 연구소(Allen Institute for AI)의 오렌 에치오니(Oren Etzioni)는 “다양한 차원에서 지속적으로 개선되었다는 점이 대단하다”며 “GPT-4는 이제 모든 기초 모델을 평가하는 기준이 될 것”이라고 말했다.
오픈소스 대형 언어모델 BLOOM을 개발한 AI 스타트업 허깅페이스의 공동창업자 토마스 울프(Thomas Wolf)는 “좋은 멀티모달 모델을 개발하는 것은 지난 몇 년간 많은 빅테크 소속 연구소의 목표였지만, 아직 아무도 손에 넣지 못했다”고 말한다.
이론적으로 텍스트와 이미지를 결합하면 멀티모달 모델이 세상을 더 잘 이해하도록 할 수 있다. “이는 공간 추론과 같은 대형 언어모델의 전통적인 약점을 해결하는 데 도움을 줄 수 있다”고 울프가 말했다.
GPT-4에 대한 얘기가 될지는 아직 분명치 않다. GPT-4는 챗GPT보다 몇 가지 기본적인 추론에 더 강한 것으로 보이며, 같은 알파벳으로 시작하는 단어의 텍스트 블록을 요약하는 등 간단한 퍼즐은 더 잘하는 것으로 보인다. GPT-4 팀과의 화상 통화 중에 나는 GPT-4가 오픈AI의 웹사이트에서 g로 시작하는 단어를 사용해 (일종의 언어유희로) 발표를 요약하는 모습을 데모로 보았다.
“GPT-4는 혁신적인 세대 간 성장을 이루며, 더 높은 등급을 획득함(GPT-4, groundbreaking generational growth, gains greater grades), 안전장치와 안내(guidance)로 이익을 얻음(Guardrails, guidance, and gains garnered), 거대하고 혁신적이며, 세계적인 재능이 있음(Gigantic, groundbreaking, and globally gifted)”. 다른 데모에서 GPT-4는 세금과 관련된 문서를 입력하고 관련된 질문에 답변하며, 세금 정보를 가져와 관련된 질문에 대답하며 (그 답변을 선택한) 이유를 설명했다.
GPT-4는 미국 변호사 시험, 생물학 올림피아드 등의 인간 테스트에서도 챗GPT보다 높은 성능을 보였다. 변호사 시험 결과 GPT-4는 상위 10%, 챗GPT는 90%를 기록했고, 생물학 올림피아드에서는 GPT-4가 상위 1%, 챗GPT가 69%를 기록했다. 울프는 “흥미로운 점은 GPT-4의 평가가 이제 인간이 사용하는 성능 평가 지표(벤치마크)를 기준으로 진행되기 시작했다는 것이다”라고 말했다. 그러나 그는 기술적 세부 사항을 보지 않고서는 이러한 결과가 얼마나 인상적인지 판단하기는 어렵다고 덧붙였다.
오픈AI에 따르면 GPT-4는 자사의 이전 기술 모델인 GPT-3.5 기반의 챗GPT보다 성능이 더 좋다. 이는 GPT-4가 더 많은 매개변수(훈련 중에 조정되는 신경망의 값)를 갖췄기 때문이다. 이와 같은 매개변수의 증가는 오픈AI가 이전 모델에서 발견한 중요한 추세를 따르는 것이다. GPT-3의 매개변수는 1,750억 개로 15억 개의 매개변수를 사용했던 GPT-2보다 100배 이상 많았기 때문이다. GPT-4의 개발자 중 한 명인 야쿠프 파초츠키(Jakub Pachocki)는 “이러한 기본적인 공식은 수년간 크게 바뀌지 않았다”며 “지금은 여전히 우주선을 만드는 것과 같다. 작은 부품들을 전부 정확하게 만들고, 어느 것도 부서지지 않도록 해야 한다”고 말했다.
그러나 오픈AI는 GPT-4의 매개변수가 얼마나 큰지는 공개하지 않기로 했다. 이전 출시와 달리 오픈AI는 GPT-4의 구축 방법에 대해 데이터, 컴퓨팅 성능, 훈련 기술 등을 모두 기밀로 하고 있다. 울프는 “오픈AI는 이제 제품 출시 보도자료만으로 과학적 커뮤니케이션(논문, 보고서, 학술발표) 등을 완전히 차단한, 폐쇄된 회사가 됐다”고 말했다.
오픈AI는 GPT-4를 더 안전하고 정확하게 만드는 데 6개월이 걸렸다고 말한다. 오픈AI는 GPT-4가 허용되지 않은 콘텐츠 제작 요청을 받았을 때 따를 가능성이 GPT-3.5보다 82% 적고, 거짓 정보나 잘못된 내용을 생성할 확률도 60% 적다고 말했다.
오픈AI는 이러한 안정성과 정확성 강화를 위해 챗GPT와 동일한 접근방식을 사용했다고 밝혔다. 즉, 인간의 피드백을 통한 강화학습으로 인간 평가자에게 모델이 생성한 응답에 점수를 매기게 하고, 이 점수를 사용해 이후의 결과물을 개선하는 과정을 거쳤다.
개발팀은 심지어 GPT-4를 사용해 자가 학습을 시켰다. GPT-4에 편향되고 부정확하거나 공격적인 반응을 유도하는 입력을 생성하게 한 후, 모델을 수정하여 향후 이와 같은 입력을 거부할 수 있도록 했다.
GPT-4는 현재까지 제작된 최고의 멀티모달 대형 언어모델일 것이다. 하지만 지금은 2020년 GPT-3가 처음 등장했을 때처럼 오픈AI만의 독자적 리그가 아니다. 지난 3년간 많은 일이 벌어졌기 때문이다. 오늘날 GPT-4는 딥마인드의 ‘플라밍고(Flamingo)’를 포함한 다른 멀티모달 모델들과 같은 시장에 놓여있다. 울프는 허깅페이스도 사람들이 무료로 사용하고 적용할 수 있는 오픈소스 멀티모달 모델을 개발하는 중이라고 말했다.
이러한 경쟁 상황에서 오픈AI는 이번 출시를 연구 업데이트보다는 제품 예고로 취급하고 있다. GPT-4의 초기 버전은 마이크로소프트를 포함한 오픈AI의 파트너사에 공유되었으며, 마이크로소프트는 3월 14일(현지 시각) 빙챗(Bing Chat)을 개발하는 데 GPT-4를 사용했다고 발표했다. 오픈AI는 현재 결제 솔루션 스트라이프(Stripe), 언어 학습 플랫폼 듀오링고(Duolingo)와 모건 스탠리, 아이슬란드 정부(아이슬란드어 보존을 위해 GPT-4를 사용하고 있다) 등과 협력하고 있다.
다른 회사들도 줄을 서서 기다리고 있다. 벤처 투자사 톨라 캐피탈(Tola Capital)의 공동창업자인 실라 굴라티(Sheila Gulati)는 “대부분의 회사에서는 이 정도 규모의 모델 제작 비용을 독자적으로 감당할 수 없지만, 오픈AI의 접근 방식은 스타트업들이 대형 언어모델에 매우 쉽게 접근할 수 있도록 했다”며 “이는 GPT-4를 기반으로 한 엄청난 혁신을 촉진할 것이다”라고 말했다.
강력한 신규 AI 모델이 이렇게 빠르게 연구실에서 소비자 대상 제품으로 변화한 적은 없었다(다른 뉴스에서는 구글이 타사 개발자들도 사용할 수 있는 최신 대형언어모델 PaLM을 개발 중이며, 구글 독스(Google Docs)와 지메일(Gmail)에 챗봇 기능을 출시한다고 발표했다. AI 스타트업 앤트로픽(Anthropic)은 이미 노션(Notion), 쿼라(Quora)를 포함한 일부 기업이 사용 중인 새로운 대형 언어 모델 Claude를 발표했다).
하지만 여전히 대형 언어모델에는 근본적인 결함이 있다. GPT-4는 여전히 편향되고 거짓되며 혐오스러운 텍스트를 생성할 수 있고, 안전장치(가드레일)를 우회하기 위해 해킹될 가능성도 있다. 오픈AI는 이러한 결함을 개선했지만, 아직 완전히 해결하지는 못했다. 오픈AI는 GPT-4가 타사 앱에서 사용되기에 충분한 안정성 테스트를 거쳤다고 주장하지만, 한편으로는 예상치 못한 문제 발생에 대비하고 있다. 수츠케버는 “안전은 (단숨에 결정할 수 있는) 이분법적인 문제가 아니라 (개선하며 도달하는) 과정”이라고 말한다. “새로운 기술 수준에 도달할 때마다 상황이 복잡해진다. 새로운 기능 중 많은 부분은 사람들이 잘 이해하고 있지만, 여전히 예상하지 못하는 기능도 있다고 확신한다”고 말했다.
수츠케버는 심지어 출시 속도를 늦추는 것이 때로는 더 나을 수도 있다고 생각한다. “결국은 회사들이 이러한 전례 없는 기능을 가진 모델을 더 천천히 출시할 수 있는 프로세스를 고안하는 것이 바람직할 것이다.”