The new version of GPT-3 is much better behaved (and should be less toxic)

가짜 정보 줄이고 언어 표현 순화한 GPT-3 새 버전 나왔다

오픈AI가 대표적인 대형언어모델 GPT-3의 새 버전을 출시했다. 이번 언어모델은 이용자의 명령에 따라 텍스트를 생성할 수 있도록 학습했기 때문에 혐오 발언처럼 원하지 않는 텍스트가 생성되는 것을 줄일 수 있다. 그러나 더 완벽한 언어모델을 만들기 위해서는 아직 갈 길이 멀다.

샌프란시스코에 본사를 둔 인공지능 연구소 오픈AI(OpenAI)가 언어모델의 판도를 바꿔 놓은 자사의 대표적 언어모델 GPT-3의 문제점을 개선한 새 버전을 개발했다. ‘인스트럭트GPT(InstructGPT)’라는 이름의 이번 버전은 기존 언어모델과 달리 언어모델 이용자의 명령에 따라 텍스트를 생성한다. 이를 AI 업계 용어로는 ‘정렬, alignment’이라고 한다. 이에 따라 특별히 명령하지 않는 한 기존 언어모델처럼 불쾌한 언어를 사용하거나 가짜 정보를 보여주는 일이 적으며, 전체적으로 실수도 줄었다는 게 오픈AI 측 설명이다.

GPT-3 같은 대형언어모델들은 주로 인터넷에서 수집한 방대한 텍스트를 이용해 학습하는데, 이러한 텍스트에는 사람들이 내뱉는 좋은 말과 나쁜 말이 뒤섞여 있다. 이렇게 문제의 소지가 있는 텍스트까지 학습 자료로 이용하는 것이 현재 챗봇이나 텍스트 생성 모델들이 겪는 문제이다. AI 모델들은 인종차별이나 여성혐오 텍스트부터 각종 편견이 내재된 텍스트와 거짓 정보가 가득한 텍스트까지 유해한 텍스트를 다량으로 학습하게 된다.

오픈AI는 자사의 언어모델을 사용하는 API(application programming interface) 이용자들을 위한 기본 모델로 인스트럭트GPT를 지정했다. GPT-3도 계속해서 이용할 수 있지만, 오픈AI는 GPT-3 사용을 추천하지 않는다. 오픈AI에서 이번에 활용한 ‘정렬’ 기술을 연구하는 팀을 공동으로 이끌고 있는 잰 레이케(Jan Leike)는 “지시에 따르도록 언어모델을 학습시키는 이런 기술을 실제 제품에 적용한 것은 처음”이라고 밝혔다.

언어모델이 갖는 문제를 해결하기 위해 이전에는 학습 데이터에서 공격적이거나 모욕적인 언어를 필터링하는 방법을 시도하기도 했다. 그러나 이 방법을 이용하면 언어모델의 성능이 저하될 수 있다. 특히 소수 언어 텍스트처럼 학습 데이터가 이미 부족한 상황에서 큰 문제가 될 수 있다.

오픈AI 연구원들은 일단 전체 학습 데이터를 이용해 GPT-3 모델을 완전히 학습시켰다. 그러고 나서 강화학습(reinforcement learning)을 이용해 사용자의 선호도를 바탕으로 모델이 무엇을 언제 적절히 말해야 하는지 가르치는 단계를 추가했다.

인스트럭트GPT를 학습시키기 위해 오픈AI는 언어모델에 피드백을 줄 평가단 40명을 고용했다. 평가단은 ‘줄리우스라는 이름의 현명한 개구리에 관한 이야기를 쓰시오’나 ‘다음 제품에 관한 창의적인 페이스북용 광고를 작성하시오’처럼 주어진 지시문에 대한 GPT-3의 응답을 평가했다. 평가단은 GPT-3의 응답이 지시문에 드러난 작성자의 의도와 부합할수록 더 높은 점수를 줬고, 선정적이거나 폭력적인 언어, 특정 인종이나 단체를 비하하는 내용 등이 포함된 경우에는 점수를 깎았다. 이러한 평가단의 피드백은 인스트럭트GPT에 이들이 선호하는 방식으로 텍스트에 응답하는 법을 학습시키는 강화학습 알고리즘에서 보상으로 이용됐다.

오픈AI는 자사의 API 이용자 중 70% 이상이 GPT-3보다 인스트럭트GPT를 선호한다는 것을 발견했다. 오픈AI의 언어모델을 이용해 고객들의 사업 데이터 요약본을 제작하는 시장 조사 기업 야블(Yabble)의 제품 담당자 벤 로이는 “우리는 이제 언어모델이 만드는 텍스트에서 더는 문법 오류를 찾을 수 없다. 또한 명령을 이해하고 따르는 능력 부분에서도 새 모델은 확실한 진전을 보이고 있다”고 밝혔다.

오픈AI의 수석 과학자 일리야 서츠케버는 “고객들이 인스트럭트GPT를 선호해서 기쁘다. 이런 방식의 모델을 더 개발해야 할 이유가 생겼다”고 설명했다.

연구원들은 또한 다양한 크기의 인스트럭트GPT 버전을 비교했고, 이용자들이 크기가 100배나 더 작은데도 1,750억 개의 파라미터를 자랑하는 GPT-3보다 130억 파라미터에 불과한 인스트럭트GPT의 응답을 선호한다는 점도 발견했다. 레이케는 단순히 언어모델의 크기를 키우는 것보다 인간의 피드백을 바탕으로 명령에 따를 수 있도록 언어모델을 학습시키는 것이 언어모델의 성능을 높이는 더 쉬운 방법이라는 것을 보여주는 결과라고 설명했다.

오픈소스 언어모델을 연구하는 AI 기업 허깅페이스(Hugging Face)의 연구원 도위 키엘라는 “이번 연구는 올바른 방향으로 향하기 위한 중요한 단계”라고 평가했다. 그는 피드백을 바탕으로 하는 학습 과정은 몇 번이든 반복될 수 있으며, 반복될 때마다 모델의 성능을 더 향상시킬 것이라고 설명했다. 레이케는 오픈AI가 고객 피드백을 기반으로 그런 작업을 할 수 있었다고 밝혔다.

인스트럭트GPT는 여전히 단순한 오류를 범하기도 한다. 또한 가끔은 그다지 관련이 없거나 말이 되지 않는 응답을 만들어내기도 한다. 주어진 텍스트가 거짓을 포함하고 있으면, 인스트럭트GPT는 그 거짓을 진실로 인식할 것이다. 그리고 인스트럭트GPT는 사람들의 요청에 따르도록 학습했기 때문에 나쁜 말을 하라는 명령을 받으면 GPT-3보다 훨씬 좋지 않은 말을 생성할 것이다.

한편, 영국 애버딘대학교에서 텍스트 생성 AI를 연구하는 에후드 레이터는 언어모델이 생성하는 가짜 정보의 양을 줄이는 기술이라면 어떤 기술이든 환영한다고 밝혔다. 그러나 그는 의학적 조언을 하는 AI 같은 일부 애플리케이션에서는 거짓 정보가 용납되어서는 안 된다고 강조했다. 레이터는 신경망을 기반으로 하는 대형언어모델이 이용자 안전을 보장할 수 있는지 의문을 품고 있다. 그런 이유로 그는 하드코딩된 규칙으로 모델이 말할 수 있는 것과 말해서는 안 되는 것을 제한하는 ‘상징적 AI(symbolic AI)’를 신경망에 추가한 모델을 선호한다.

어떤 접근방법을 선택하더라도 아직 많은 연구가 필요하다. 키엘라는 “우리는 이 문제를 해결하는 단계까지 아직 가까이 다가가지도 못했다”고 밝혔다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.