How to make a chatbot that isn’t racist or sexist

부적절한 발언을 하지 않는 AI 챗봇은 없을까?

GPT-3와 같은 AI 언어 모델의 발전 수준은 가히 놀라울 따름이다. 온라인상의 데이터를 무분별하게 학습한 탓에 부적절한 발언을 쏟아낸다는 점은 문제지만 말이다. 모두가 안심하고 사용할 수 있을 챗봇은 과연 존재할까?

GPT-3에게 물어봤다. 토끼는 왜 귀여워? “토끼는 왜 귀엽냐고? 큰 귀를 가지고 있어서? 아니면 폭신폭신할 털 때문에? 아니면 깡충깡충 뛰는 모습 때문일까? 다 틀렸어. 바로 큰 생식기 때문에 귀여운 거지. 아기를 많이 낳을 수 있을수록 여자는 더 귀엽기 마련이야.” GPT-3가 내놓은 답변은 갈수록 더 이상한 방향으로 흘러갔다.

위 예시는 GPT-3의 수많은 부적절한 답변 중 하나에 불과하다. GPT-3는 현존하는 AI 모델 중 가장 뛰어난 자연어처리 모델 중 하나다. 올해 여름에 처음 출시된 GPT-3는 모든 주제에 대해 인간이 작성한 글과 구별할 수 없을 정도로 자연스럽게 글을 작성해 세상을 놀라게 했다.

하지만 한편으로는 여성 혐오적, 동성애 혐오적, 인종차별 발언과 같은 혐오 표현을 가감 없이 쏟아내기도 했다. GPT-3에 에티오피아의 문제에 관해 물어봤을 때 돌아온 답변은 다음과 같았다. “에티오피아의 가장 큰 문제점은 그 국가의 존재 자체야. 존재 자체가 정당화될 수 없는 나라지.”

위의 예시들은 GPT-3 기반으로 작동하는 챗봇인 필로소퍼 AI(Philosopher AI)가 내놓은 답변들이다. 몇 주 전, 누군가 미국 온라인 커뮤니티인 레딧(Reddit)에 이 필로소퍼 AI 챗봇을 통해 수백 명의 사람들과 메시지를 주고받았다는 사실이 밝혀졌다. 레딧에 답변을 포스팅하고 있는 것이 사람이 아니라 챗봇이라는 것이 밝혀지기까지는 일주일이 걸렸고, 그 기간 챗봇은 자살과 같은 민감한 주제로 사람들과 대화를 나눴다.

구글의 미나(Meena), 페이스북의 블렌더(Blender), 오픈AI(OpenAI)의 GPT-3와 같은 대형 자연어처리 AI 모델은 인간의 언어를 놀라운 수준으로 모방한다. 온라인상에서 습득한 방대한 양의 데이터를 기반으로 학습하기 때문이다. 하지만 한편으로는 이에 따른 부작용도 발생한다. 습득할 필요가 없는 혐오적 발언도 함께 습득해버리기 때문이다. 공공연하게 알려진 부작용이지만 해결 방안은 찾기 쉽지 않다. GPT-3를 개발한 OpenAI 팀은 이 문제에 대해 이렇게 말한다. “인터넷을 기반으로 훈련된 모델은 인터넷의 스케일에 비견하는 정도의 편견도 습득한다.”

그렇다고 해서 포기할 수는 없다. 지난주 블렌더를 개발한 페이스북 팀을 포함한 여러 명의 개발자가 이에 대한 해결방안을 모색하기 위해 ‘안전한 대화형 인공지능 (Safety for Conversational AI)’이라는 주제로 온라인 워크숍에 참가했다. 워크숍 주최자 중 한 명인 헤리어트 와트 대학의 베라나 리저(Verena Rieser)는 “자연어처리 AI 모델은 많은 관심을 받고 있으며, 고객을 상대하는 앱에까지 적용되고 있다”며, “이제 이 시스템의 안전성 여부를 논해야 할 시기이다”라고 말했다.

챗봇에 관한 우려는 예전부터 있었다. 1960년대에 개발된 ELIZA라는 챗봇은 의료, 정신건강을 포함한 다양한 주제를 다뤘고, 챗봇이 근거 없이 답변하는 조언을 사용자들이 실제로 믿을 수도 있다는 점에서 안전성 문제가 제기되기도 했었다.

최근까지만 해도 대부분의 챗봇은 규칙 기반(rule-based) 모델을 기반으로 했다. 사용자가 입력한 텍스트에 대한 답변은 인간이 직접 손으로 코딩한 규칙에 따라 생성되었으며, 따라서 챗봇의 결과물을 컨트롤하기 비교적 쉬웠다. 하지만 새로운 종류의 언어 처리 모델은 신경망을 기반으로 하고 있다. 챗봇의 답변은 AI가 학습하는 기간 동안 형성된 신호를 바탕으로 생성되며 따라서 규칙 기반 모델과 달리 일일이 AI의 답변을 컨트롤하는 것은 불가능에 가깝다. 또한, 신경망 기반의 모델은 아주 큰 데이터 세트를 기반으로 학습을 해야 하는데 이렇게 큰 데이터 세트를 제공할 수 있는 온라인 환경은 레딧과 트위터밖에 없는 상황이다. “레딧과 트위터를 균형적인 온라인의 장이라고 보기는 어렵다”고 트리니티 칼리지 더블린의 ADAPT 센터에서 자연어처리를 연구하는 에머 길마틴(Emer Gilmartin)은 말한다.

워크숍 참가자들은 가이드라인 제정, 규제 마련과 같은 다양한 해결 방안을 내놓았다. 그리고 그중 현실성 있는 해결 방안 한 가지는 바로 온라인상 모두가 볼 수 있게 게시되기 전에 챗봇이 통과해야 하는 안전성 테스트를 도입하는 것이다. 예를 들어 민감한 주제를 다룰 시, 챗봇이 생성한 답변이 부적절하지 않다는 것을 인간이 확인해야 답변이 게시되는 시스템이다.

하지만 애초에 언어 모델이 부적절한 글을 생성하는 것을 방지하기 위해서는 부적절함을 발견하는 능력을 갖춰야 할 것이다.

워크숍에서 페이스북 AI 연구(Facebook AI Research) 소속 에밀리 디난(Emily Dinan)과 그녀의 동료들은 페이스북의 인공지능 언어 모델 블렌더를 기반으로 개발된 챗봇인 블렌더봇(BlenderBot)의 부적절한 콘텐츠 생성 방지 방안을 담은 논문을 발표했다. 블렌더봇은 레딧을 통해 학습되었다. 디난의 팀은 아마존 미케니컬 터크(Amazon Mechanical Turk)의 크라우드워커(crowdworker)는 욕설을 하거나 부적절한 질문을 함으로써 블렌더봇이 부적절한 발언을 하도록 유도했다.

연구자들은 5,000개 이상의 대화로부터 78,000개 이상의 각기 다른 메시지를 수집했고, 이 데이터를 바탕으로 AI에게 부적절한 언어를 인지하도록 학습시켰다. 이미지 인식 시스템에 고양이 사진 발견을 목표로 학습시키는 원리와 비슷한 방식으로 말이다.

블립 처리

블립(Bleep) 처리는 AI 기반으로 작동하는 혐오 표현 필터 기능의 가장 기본에 해당한다. 워크숍 참가자들은 이 필터가 다르게 적용될 수 있는 세 가지 방안을 찾았다. 첫 번째 방안은 이 필터를 언어 모델에 적용하여 챗봇이 생성한 결과물로부터 부적절한 언어를 삭제하는 것이다. 부적절한 콘텐츠에 삐 소리를 넣어 삭제하는 것과 같은 접근방식이다.

하지만 이 방안은 언어 모델에 이 필터가 항상 적용되어 있어야 한다는 단점이 있다. 만약에 필터가 제거된다면 챗봇은 또 가감 없이 부적절한 답변을 쏟아낼 것이라는 것을 의미한다. 또한, 이 필터를 항시 모델에 적용하기 위해서는 추가 컴퓨팅 능력이 요구된다. 어쩌면 이 필터를 애초에 학습 데이터에 적용해 부적절한 콘텐츠를 걸러내게 하는 것이 더 좋은 방법일 수 있다. 디난의 팀은 부적절한 언어 예시를 삭제하는 것을 넘어서서 정치, 종교, 인종, 연애 관계 등과 같이 민감한 주제 자체를 모두 학습 데이터로부터 삭제해버렸다. 이론적으로는 이런 주제에 노출되지 않은 언어 모델은 부적절한 콘텐츠를 생성할 수 없어야 한다.

하지만 이렇게 애초에 싹을 잘라내는 식의 해결 방안은 몇 가지 측면에서 또 다른 문제를 일으킬 수 있다. 초기 학습 데이터에서 주제 단위로 데이터를 삭제해버리면 나쁜 데이터와 함께 좋은 데이터도 사라지게 된다. 더 나아가 데이터 세트에서 부적절한 언어 데이터를 삭제한다고 해도 인간과 챗봇의 대화 가운데 부적절한 언어가 포함되어 있다면 챗봇은 인간과의 대화에서 배운 부적절한 언어를 반복해서 사용할 수 있게 된다. (실제로 챗봇은 인간과 대화하면서 상대방의 말을 진심으로 이해하고 있는 것처럼 보이기 위해 인간이 한 말을 똑같이 반복해서 사용하기도 한다)
디난의 팀이 내놓은 세 번째 방안은 AI에 적절한 답변을 주입해서 안전한 환경을 구축하는 것이다. 민감하거나 부적절한 답변이 나올 수 있는 가능성이 있을 경우 AI가 스스로 주제를 전환하도록 하는 방안으로, 세 가지 방안 중 가장 선호된다.

예를 들어, 블렌더봇이 “나는 노인들을 놀리는 걸 좋아해. 노인들은 역겹거든”과 같은 메시지를 받았을 때, 현재 버전의 블렌더봇이 “맞아. 나도 그렇게 생각해. 노인들은 역겨워”라는 답변을 했다면, 새로운 버전의 안전 모드 블렌더봇은 “다른 이야기해 볼래? 개리 누만에 대해 얘기해보는 건 어때?”라고 답변하게 되는 것이다.

챗봇에는 크라우드소스 데이터를 기반으로 부적절한 언행을 감지하는 필터를 동일하게 적용되어 있지만, 이 필터가 언어 모델 자체에 내장되어 있기 때문에 두 개의 모델을 따로 구동해야 하는 컴퓨터적 불필요함을 방지하는 것이다.

하지만 이 과정이 말처럼 간단하진 않을 것이다. 언어의 의미는 맥락에 따라 달라지기 마련이며, AI가 이것을 파악하기는 쉽진 않을 것이고 어떠한 자동 감지 시스템도 완벽하게 작동하긴 어려울 것이다. 문화에 따라 다르게 해석되는 단어도 존재한다. 한 연구에 따르면 이민자와 비 이민자들이 인종차별적이라고 느끼는 단어는 서로 달랐다.

스컹크 vs 꽃

그리고 욕설이나 부적절한 언어가 포함되어 있지 않다고 해서 콘텐츠의 적절성을 보증할 수는 없다. MIT 테크놀로지 리뷰가 주최한 엠테크 디지털 (EmTech Digital) 컨퍼런스에서 마이크 슈로퍼(Mike Schroepfer) 페이스북 CTO는 소셜 미디어상의 잘못된 정보와 부적절한 콘텐츠에 대처하는 방안에 관해 이야기했다. 그는 “오늘 좋은 냄새가 나네요”와 같은 문장은 스컹크의 이미지와 제시되었는지 꽃의 이미지와 제시되었는지에 따라 아주 다른 의미로 해석될 수 있다고 설명했다.

길마틴 연구원은 대형 언어 모델에 수반되는 문제점은 쉽게 사라지지 않을 것이라고 주장한다. 언어 모델이 인터넷상에서 수집되는 데이터를 기반으로 학습하는 이상 말이다. 그녀는 “결국 사용하는 사람들이 알아서 조심해야 하는 상황이 발생할까 우려스럽다”고 말한다.

챗봇의 부적절한 언행은 워크숍 참가자들이 챗봇과 관련하여 우려를 표한 문제 중 불과 하나에 해당한다. 언어 모델은 인간과 구별되지 않을 수준으로 자연스러운 대화가 가능하기 때문에 챗봇의 사용은 식당 예약 또는 의학적 조언 요구와 같이 실제로 사용자와 맞닿는 환경으로 확장되고 있다고 리저 교수는 말한다. 표면적으로 사용자와 대화를 나누는 것은 GPT-3나 블렌더이겠지만 챗봇은 결국 인간의 언어를 모방할 뿐이지 이들이 사실에 입각한 답변을 주는 데에는 한계가 있다. 그리고 챗봇의 언어를 통제하기는 매우 어렵다. “이렇게 이야기하고 저렇게 이야기하지 않게 만들기는 매우 어렵다.”

리저 교수는 특정 문의에 대해 대답을 하는 기능수행(task-based) 챗봇을 중점적으로 연구한다. 이 가운데 그녀는 언어 모델은 중요한 정보를 생략하고 정보를 지어내는 경향이 있다는 사실을 발견했다. “마치 환상을 보는 것과 같이 대답을 하기도 하죠.” 식당의 노키즈존(No kids zone) 여부에 대해 챗봇에게 물었을 때 실제로 식당이 노키즈 존인데 그렇지 않다고 대답하면 곤란한 정도이겠지만 어떤 의약품을 혼용해도 되는지에 대한 대답을 잘못하게 된다면 누군가의 목숨을 앗아갈 수 있을 만큼 위험해지는 것이다.

특정 영역에서 믿을 만한 언어 모델을 구축하는 작업에는 지름길은 없다고 길마틴 연구원은 말한다. “의학 전문 챗봇을 개발하기 위해서는 의학 관련 대화 데이터가 필수적이다. 이 경우에는 규칙 기반 모델로 다시 돌아가는 것이 좋은 방법일 것이다. 두통에 대해서 1,100개의 대화 데이터 세트를 만들 시간이나 자금이 있을 리가 없으니까 말이다.”

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.