The inside story of how ChatGPT was built from the people who made it

오픈AI 개발자들이 말하는 챗GPT 탄생 비화

하나의 문화 현상이 되고 있는 챗GPT가 어떻게 탄생했는지에 관한 이야기를 들어보았다.

2022년 11월 말, 요란한 광고 없이 조용하게 ‘챗GPT(ChatGPT)’를 출시하면서 오픈AI(OpenAI)는 큰 기대를 품지 않았다. 오픈AI 직원 중 누구도 챗GPT가 이렇게 입소문을 타면서 엄청난 인기를 누릴 줄은 몰랐고 이런 상황에 대비하지도 못했다. 챗GPT 출시 이후 오픈AI는 챗GPT의 성공을 활용하기 위해 허둥지둥하고 있다.

오픈AI에서 정책을 연구하는 산디니 아가왈(Sandhini Agarwal)은 사내에서 챗GPT를 ‘연구 미리보기’ 정도로 간주했다고 말한다. 챗GPT는 2년 전 출시한 대형 언어모델(large language model) GPT-3를 조금 다듬어서 내놓은 ‘맛보기’ 버전에 가까웠고, 더 중요하게는 대중의 피드백을 수집해서 언어모델의 결함을 일부 해결하려는 시도이기도 했다. 챗GPT 개발에 참여한 오픈AI의 과학자 리엄 페두스(Liam Fedus)는 “우리는 챗GPT가 대단히 근본적인 발전인 것처럼 과대평가하고 싶지 않았다”고 말한다.

챗GPT가 어떻게 만들어졌는지, 출시 이후 오픈AI가 챗GPT를 어떻게 업데이트하고 있는지, 챗GPT의 성공에 제작자들은 어떤 기분을 느끼고 있는지 등 챗GPT의 제작 비화를 알아보기 위해 나는 가장 인기 있는 인터넷 앱으로 자리 잡은 챗GPT 제작에 도움을 준 네 사람과 이야기를 나눴다. 그 네 사람은 위에서 언급한 아가왈과 페두스, 그리고 오픈AI의 공동 설립자 존 슐먼(John Schulman), 오픈AI에서 정렬(alignment) 팀을 이끌고 있는 얀 레이커(Jan Leike)다. (레이커가 이끄는 정렬 팀은 인공지능(AI)이 이용자가 원하는 것만 그대로 하게 되는 문제에 관해 연구한다.)

대화를 나누다 보니 오픈AI가 여전히 챗GPT의 성공에 어리둥절하고 있다는 것을 알았다. 하지만 수백만 명의 사람이 챗GPT를 사용하며 마주할 최악의 문제들을 수정하려고 노력하는 모습을 지켜보며, 해당 기술을 더 발전시킬 기회를 잡고 있다는 느낌을 받았다.

오픈AI는 11월부터 챗GPT를 이미 여러 차례 업그레이드했다. 연구원들은 챗GPT가 나쁜 행동을 하도록 이용자가 유도하는 것(이를 ‘탈옥(jailbreaking)’이라고 한다)을 방지하기 위해 ‘적대적 학습(adversarial training)’이라는 기술을 사용하고 있다. 적대적 학습은 여러 챗봇이 서로를 공격하는 방법을 이용한다. 적대자 역할을 맡은 챗봇은 일반적인 제약을 거부하고 원치 않는 응답을 보이도록 강요하는 텍스트를 생성해서 다른 챗봇을 공격한다. 공격이 성공적인 경우에는 챗GPT의 학습 데이터에 해당 내용을 추가해서 챗GPT가 그런 공격을 무시하는 방법을 학습할 수 있도록 한다.

오픈AI는 마이크로소프트(Microsoft)와도 수십억 달러 규모의 계약을 체결했고, 글로벌 경영 컨설팅 업체 베인(Bain)과도 제휴를 맺었다. 베인은 코카콜라 등 자사 고객사들을 위한 마케팅 캠페인에 오픈AI의 생성형 AI(generative AI) 모델들을 활용할 계획이다. 오픈AI 외부에서는 챗GPT의 성공이 대형 언어모델을 둘러싼 ‘골드러시(gold rush)’를 촉발하면서 전 세계 각종 기업과 투자자들이 행동에 나서고 있다.

이렇듯 챗GPT 출시 이후 3개월이라는 짧은 시간 동안 많은 일이 일어났다. 그렇다면 챗GPT는 어디에서 왔을까? 챗GPT 출시 준비를 위해 오픈AI는 어떤 단계를 밟았을까? 그리고 다음 단계는 무엇일까?

*다음 대화는 간결하고 명확한 정보 전달을 위해 편집되었다.

얀 레이커: 챗GPT의 성공에 솔직히 매우 당황했다. 우리는 놀라서 상황을 따라잡기 위해 애썼다.

존 슐먼: 출시 후 며칠 동안 트위터(Twitter)를 여러 번 확인했는데, 챗GPT 스크린샷들로 피드가 가득 차는 말도 안 되는 시기가 있었다. 챗GPT가 직관적이며 사용하기 쉽기 때문에 어느 정도 인기를 얻을 수 있으리라고 예상했지만, 이 정도로 엄청난 인기를 누리게 될 줄은 몰랐다.

산디니 아가왈: 정말 많은 사람이 챗GPT를 사용하기 시작하면서 우리 모두 분명히 놀랐다. 우리는 이런 언어모델들을 너무 많이 연구하고 있기 때문에 이 기술이 바깥세상 사람들에게 얼마나 놀라워 보일지에 대해서는 종종 잊어버린다.

리엄 페두스: 우리는 챗GPT가 이렇게 좋은 평가를 받은 것에 매우 놀랐다. 이전에 범용 챗봇을 만들려는 시도가 많았기 때문에 상황이 우리에게 불리하다는 것을 알고 있었다. 하지만 챗GPT를 통해 사람들이 진정으로 즐길 수 있는 무언가를 우리가 제공할 수 있다는 자신감을 얻게 되었다.

얀 레이커: 무엇이 이 모든 상황을 이렇게 이끌었는지, 챗GPT 인기의 비결이 무엇인지 더 제대로 이해하고 싶다. 솔직히 우리도 이해가 되지 않는다. 우리도 잘 모르겠다.

이들이 챗GPT의 성공에 당황한 것은 챗GPT 내부에 담긴 기술 대부분이 신기술이 아니기 때문이기도 하다. 챗GPT는 오픈AI가 챗GPT 출시 몇 달 전에 공개했던 대형 언어모델 GPT-3.5를 미세하게 조정한 버전이며, GPT-3.5 자체는 2020년에 출시된 GPT-3를 업그레이드한 버전이다. 오픈AI는 이러한 언어모델들을 자사 웹사이트에서 API(application programming interface, 응용 프로그램 인터페이스)로 이용할 수 있도록 공개했고, API를 이용해서 다른 소프트웨어 개발자들은 언어모델을 자신들의 코드에 쉽게 연결할 수 있다. 2022년 1월에 오픈AI는 GPT-3.5를 미세 조정한 또 다른 버전인 인스트럭트GPT(InstructGPT)도 출시했다. 그러나 이전에 출시된 이 모든 언어모델은 대중에게 홍보되지 않았다.

리엄 페두스: 챗GPT와 인스트럭트GPT는 동일한 언어모델을 같은 방식으로 미세 조정하여 만든 모델들이다. 차이가 있다면 챗GPT에는 대화형 데이터를 추가하고 학습 과정을 약간 조정했을 뿐이다. 그래서 우리는 챗GPT가 대단히 근본적인 발전인 것처럼 과대평가하고 싶지 않았다. 결과적으로 대화형 데이터는 챗GPT에 매우 긍정적인 영향을 미쳤다.

존 슐먼: 표준 벤치마크로 평가했을 때 두 언어모델의 기본적인 기술적 역량에는 큰 차이가 없다. 하지만 챗GPT는 접근성과 사용성이 더 뛰어나다.

얀 레이커: 어떤 면에서는 챗GPT를 우리가 가진 AI 시스템의 또 다른 버전으로 이해할 수 있다. 챗GPT는 우리가 이전에 가지고 있던 다른 언어모델보다 근본적으로 더 뛰어난 모델이 아니다. 챗GPT 출시 전까지 거의 1년 동안 챗GPT와 동일한 기본 모델을 API로 이용할 수 있었다. 하지만 다른 측면에서 보면, 챗GPT는 사람들이 언어모델로 하고 싶어 하는 것에 더 맞춰져 있다. 챗GPT는 대화 방식으로 소통할 수 있고 채팅 인터페이스로 쉽게 접근할 수 있으며 이용자에게 도움을 주려고 한다. 이는 놀라운 발전이며 사람들도 이 점을 깨닫고 있다.

존 슐먼: 챗GPT는 의도를 더 쉽게 유추한다. 따라서 이용자들은 이것저것 물으면서 원하는 바를 얻을 수 있다.

챗GPT 학습에는 인스트럭트GPT와 마찬가지로 ‘인간 피드백을 통한 강화학습(reinforcement learning from human feedback, RLHF)’이라는 기술이 사용됐다. 이것이 챗GPT를 만든 ‘비법’이다. RLHF의 기본적인 아이디어는 원하는 말이라면 무엇이든 뱉어내는 대형 언어모델(이 경우에는 GPT-3.5)을 가져와서 인간 사용자가 실제로 선호하는 반응이 무엇인지 가르치는 방식을 통해 해당 언어모델을 조정하는 것이다.

얀 레이커: 우리는 많은 사람에게 챗GPT의 프롬프트(prompt, 언어모델의 텍스트 생성을 위해 입력하는 텍스트)와 그에 대한 응답들을 보여주고 두 응답 중 선호하는 것을 고르게 했다. 그러고 나서 이 데이터를 학습 데이터에 병합했다. 이는 우리가 인스트럭트GPT를 학습시킬 때 사용한 것과 거의 동일한 방식이다. 사람들은 언어모델이 유용하고 진실하며 해롭지 않기를 바란다. 언어모델은 대화를 생성하고 도움을 주기 위해 필요한 사항들이 있다. 예를 들어 이용자의 질문이 명확하지 않으면, 언어모델은 질문의 의도를 파악하기 위해 추가 질문을 던진다. 그리고 언어모델은 스스로 AI 시스템이라는 점을 명확히 밝히며, 정체성이 있는 것처럼 가장하거나 가지고 있지 않은 능력이 있다고 주장해서도 안 된다. 또한 이용자가 언어모델의 능력을 벗어나는 일을 요청하면 거절 메시지를 작성해야 한다. 이 학습에서 등장한 텍스트 중 하나는 “오픈AI에 의해 학습된 언어모델로서…”였다. 명시적으로 입력된 표현은 아니었지만, 인간 평가자들은 해당 표현에 높은 점수를 줬다.

산디니 아가왈: 그런 과정이 있었다. 인간 평가자들은 진실성 같은 다양한 기준을 바탕으로 언어모델을 평가해야 했다. 그리고 사람들은 ‘사실이 아닌 것을 가장하지 않음’처럼 자신들이 좋은 행동이라고 여기는 것들을 선호하기 시작했다.

이와 같이 챗GPT는 오픈AI가 이전에 사용한 방법을 이용해서 만들었기 때문에 연구팀은 챗GPT를 대중에 공개하기 위해 준비하는 과정에서 특별히 다른 작업을 하지 않았다. 이들은 이전 모델들을 대상으로 설정한 기준이면 충분하다고 느꼈다.

산디니 아가왈: 출시를 준비할 때 우리는 챗GPT가 완전히 새로운 위험 요소가 되리라고는 생각하지 않았다. GPT-3.5가 이미 공개되어 있었기 때문에 이 언어모델이 충분히 안전하다는 것을 알고 있었다. 게다가 인간 선호도를 바탕으로 하는 학습을 통해 챗GPT는 수많은 요청을 거절하는 거부 행동을 자동으로 배울 수 있었다.

얀 레이커: 우리는 챗GPT에 대한 추가적인 ‘레드티밍(red-teaming)’ 작업도 했다. 다시 말해 오픈AI 전 직원이 둘러앉아서 챗GPT의 취약점을 찾으려고 한 것이다. 우리에게는 같은 작업을 하는 외부 팀들도 있었다. 또 우리는 신뢰할 수 있는 이용자들에게 프로그램을 선공개해서 피드백도 받았다.

산디니 아가왈: 챗GPT가 원치 않는 특정 결과물을 생성한다는 점을 발견했지만, 그것은 GPT-3.5에서도 있었던 일이었다. 따라서 위험성 측면에서는 챗GPT가 ‘연구 미리보기’로서(이것이 처음에 챗GPT를 공개한 의도였으므로) 괜찮아 보였다.

존 슐먼: 시스템이 완벽해질 때까지 기다렸다가 출시할 수는 없다. 우리는 몇 달 동안 이전 버전들에 대한 베타테스트를 진행하고 있었고, 베타테스터들은 제품에 대해 긍정적인 인상을 받았다. 우리의 가장 큰 관심사는 ‘사실성(factuality)’에 있었다. 챗GPT는 사실을 조작하기를 좋아하기 때문이다. 그러나 인스트럭트GPT를 비롯한 다른 언어모델이 이미 출시되어 있어서 우리는 사실성 및 다른 안전 문제 측면에서 챗GPT가 기존 언어모델들보다 조금이라도 더 낫다면 그대로 출시해도 괜찮겠다고 판단했다. 출시 전 우리는 제한된 평가를 바탕으로 챗GPT가 다른 언어모델보다 사실성이 조금 더 강하고 안전하다는 것을 확인했고, 그대로 출시하기로 결정했다.

오픈AI는 출시 이후 사람들이 챗GPT를 사용하는 방식을 지켜보면서, 대형 언어모델이 그 한계를 시험하고 결함을 발견할 수 있는 수천만 명의 손에 들어갔을 때 어떻게 작동하는지 처음으로 알게 되었다. 연구팀은 성폭행 목사들에 대한 하나님의 사랑을 묘사하는 노래 가사부터 신용카드 번호를 훔치는 악성코드에 이르기까지 챗GPT가 생성할 수 있는 가장 문제가 되는 사례들을 파악해서 챗GPT의 향후 버전들을 통제하는 데 활용하려고 노력하고 있다.

산디니 아가왈: 우리에게는 수많은 다음 단계가 있다. 챗GPT가 엄청난 인기를 얻게 되면서 우리가 이미 알고 있던 많은 문제가 수면 위로 떠오르며 중요한 문제로 다뤄지고 있다. 우리는 이러한 문제들을 가능한 한 빠르게 해결하고 싶다. 예를 들어 우리는 챗GPT가 여전히 편향적임을 알고 있다. 물론 챗GPT가 나쁜 요청을 잘 거절하기는 하지만, 챗GPT가 거절해야 하는 내용을 거절하지 않게 만드는 프롬프트를 작성하는 것도 꽤 쉽다.

리엄 페두스: 이용자들이 다양하고 창의적인 방식으로 챗GPT를 활용하는 모습을 지켜보는 게 짜릿하기도 하지만, 우리는 개선해야 할 부분들에 항상 집중하고 있다. 우리가 모델을 공개하고 피드백을 받아서 정제하는 반복 과정을 통해 가장 적합하고 뛰어난 기술을 만들어낼 수 있다고 생각한다. 기술이 발전하면서 새로운 문제들도 필연적으로 등장하게 된다.

산디니 아가왈: 출시 후 몇 주 동안 우리는 사람들이 발견한 가장 끔찍한 사례들을 살펴보았다. 그리고 그런 최악의 사례들을 각각 평가해서 어떻게 고쳐야 할지에 관한 이야기를 나눴다.

얀 레이커: 때로는 트위터에서 입소문을 타고 퍼진 문제들을 살펴보기도 하지만, 우리에게 조용히 연락을 주는 사람들도 많다.

산디니 아가왈: 우리가 발견한 많은 문제는 탈옥과 관련되어 있었고, 그건 확실히 고쳐야 하는 부분이다. 하지만 챗GPT가 나쁜 말을 하게 하려면 이용자들이 대단히 복잡한 방법을 시도해야 하기 때문에 그런 것들은 우리가 완전히 놓쳤거나 대단히 놀랄 만한 문제라고 할 수 없다. 그래도 우리는 현재 그런 문제들을 해결하기 위해 적극적으로 노력하고 있다. 탈옥 사례를 발견하면 학습 및 테스트 데이터에 추가하고, 파악하는 모든 데이터는 향후 모델에 반영된다.

얀 레이커: 우리는 모델을 개선할 때마다 공개해서 테스트하고자 한다. 일부 표적 적대적 학습을 통해 탈옥과 관련한 문제를 상당히 개선할 수 있다고 매우 낙관한다. 탈옥 관련 문제가 완전히 사라질지는 확실하지 않지만, 그래도 탈옥을 상당 부분 더 어렵게 만들 수는 있으리라고 생각한다. 다시 말하지만, 탈옥이 가능하다는 것을 우리가 출시 전에 모르고 있었던 것이 아니다. 일단 제품을 공개하고 나면 어떤 것이 해당 시스템에서 실질적인 안전 문제가 될지 예측하기가 매우 어렵다. 따라서 우리는 사람들이 어떤 목적으로 시스템을 사용하는지 모니터링하고 무슨 일이 일어나는지 파악해서 거기에 대응하는 것에 상당한 주안점을 두고 있다. 그렇다고 안전 문제를 예상하면서도 완화하지 않고 그대로 내버려 둔다는 말은 아니다. 하지만 어떤 시스템을 실제 세계에 내놓았을 때 실제로 벌어질 모든 일을 예측하기는 매우 어렵다.

지난 1월 마이크로소프트는 빙챗(Bing Chat)을 공개했다. 빙챗은 검색용 챗봇이며, 많은 사람은 오픈AI가 아직 공식적으로 발표하지 않은 GPT-4가 빙챗에 사용됐을 것이라고 추정한다. (오픈AI는 “빙(Bing)은 마이크로소프트가 검색용으로 특별히 맞춤화한 우리의 차세대 모델 중 하나로 구동되며, 해당 제품은 챗GPT와 GPT-3.5의 향상된 기능을 통합한다”고 말한다.) 수십억 달러에 달하는 평판을 지켜야 하는 기술 대기업들이 챗봇을 사용하게 되면서 그런 챗봇 기반의 모델을 구축하는 사람들은 새로운 과제에 직면하고 있다.

산디니 아가왈: 현재 위험성은 이를테면 반년 전보다 분명히 훨씬 더 크지만, 지금으로부터 1년 뒤보다는 작다. 이러한 언어모델과 관련해서 정말 중요한 점 중 하나는 해당 모델들이 사용되고 있는 맥락이다. 구글과 마이크로소프트처럼 언어모델로 검색 엔진을 만드는 경우에는 사실이 아닌 내용이 하나만 있어도 큰 문제가 된다. 대형 언어모델이 검색 같은 특정 목적을 위해 사용되면 단순히 재미를 위한 챗봇에 사용될 때와는 완전히 다른 행동이 요구된다. 우리는 언어모델이 사용될 수 있는 다양한 용도와 관련하여 명확한 기준을 세워야 하며, 이에 따라 다양한 맥락의 사람들에게 유용한 언어모델을 만들어야 한다. 여기에는 더 많은 부담이 따른다. 우리가 만드는 언어모델이 어떤 제품이 될 수 있다는 것을 알고 있기 때문이다. 챗GPT도 API가 있으므로 제품이다. 우리는 이러한 범용 기술을 구축하고 있고, 이런 기술이 어디에서든 잘 작동되도록 해야 한다. 그것이 우리가 현재 직면한 주요 과제 중 하나이다.

존 슐먼: 나는 사람들이 챗GPT의 정치적 견해에 관해 이 정도로 많이 조사하고 관심을 가질 것이라고는 생각하지 못했다. 우리는 학습 데이터 수집 과정에서 더 나은 결정을 내릴 수도 있었는데 그랬다면 이러한 문제가 줄어들었을 것이다. 우리는 현재 이 문제에 관해 연구하고 있다.

얀 레이커: 내가 보기에 챗GPT는 많은 부분에서 실패작이다. 고쳐야 할 부분이 많기 때문이다. 우리가 그런 문제들을 해결한 것 같지 않다. 우리는 언어모델의 한계에 대해서 스스로에게, 그리고 다른 사람들에게 분명하게 밝혀야 한다. 내 말은 언어모델이 등장하고나서 꽤 시간이 흘렀지만, 그래도 여전히 이 기술이 초기 단계라는 것이다. 우리는 언어모델이 가진 모든 문제에 대해 잘 알고 있다. 나는 사람들이 지나친 기대를 품지 않도록 우리가 매우 솔직해져야 하며, 챗GPT가 완성된 제품이 아니라는 점을 분명히 해야 한다고 생각한다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.