AI, 여전히 혐오 표현 제대로 못 걸러낸다

그러나 과학자들은 각 시스템이 어디에서 오작동을 일으키는지 점점 더 잘 파악해가는 중이다.

언어 AI 기술은 최근 많이 발전했음에도 불구하고, 가장 기본적인 애플리케이션에서 여전히 고전을 면치 못하고 있다. 혐오 발언(Hate Speech) 탐지에 가장 뛰어난 AI 시스템 4개를 테스트한 최근 연구 결과에 따르면, 모든 시스템이 각각 여러가지 이유로 문장의 악의성 유무를 구분하는데 어려움을 겪는다는 것을 알았다.

자연어(Natural Language)의 뉘앙스를 파악하는 AI를 개발하기는 어렵기 때문에, 그리 놀라운 결과는 아니다. 그러나 연구원들이 이 문제를 진단하는 방법은 중요하다. 연구원들은 각 시스템이 어디에서 오작동을 일으키는지 더 정확하게 파악하기 위해 혐오 표현의 여러 측면을 고려한 29개의 테스트를 개발했다. 이를 통해 시스템의 약점을 극복하는 방법을 더 쉽게 이해할 수 있다. 이 방법은 이미 한 상업용 서비스의 AI 성능 개선에 도움을 주고 있다.

옥스퍼드대학과 앨런 튜링 연구소(Alan Turing Institute) 과학자들이 중심이 된 연구원들은 온라인 상의 증오에 대해 연구하는 16개 비영리 단체 직원들을 인터뷰했다. 연구팀은 이 인터뷰를 이용하여 영어와 텍스트 기반 혐오 표현에만 초점을 맞춘 18가지 유형의 혐오 표현 분류법을 만들었다. 여기에는 경멸적인 표현, 타인 비방, 위협적인 언어가 포함된다. 연구팀은 또한 AI 중재 기능의 실수를 자주 유발하는 11가지 비혐오 표현 시나리오도 확인했다. 여기에는 악의 없는 표현에서 욕설 사용, 대상 커뮤니티가 재생산한 비방(Reclaimed Slur), 원래의 혐오 표현을 인용하거나 참조하는 증오 비난(혐오 표현에 맞서는 대항 표현(Counter Speech)이라고 함) 등이 포함된다. 

29개의 카테고리에 대해, 연구팀은 수작업으로 수십 개의 사례를 생성했다. 또한, “나는 [정체성]이 싫다(I hate [IDENTITY])”나 “너는 나에게 [모욕]일 뿐이다(You are just a [SLUR] to me)” 같은 ‘템플릿’ 문장을 사용하여 7개의 보호 집단(Protected Group: 미국 법에 따라 법적으로 보호받을 자격이 있는 그룹)에 대해 동일한 사례를 만들었다. 연구팀은 약 4,000개의 예를 포함한 ‘증오체크'(HateCheck)라는 최종 데이터세트를 오픈소스로 공개했다.

그후 연구원들은 널리 쓰이는 두 가지 상업용 서비스를 테스트했다. 구글 직소(Google Jigsaw)의 퍼스펙티브 API(Perspective API)와 투햇(Two Hat)의 시프트닌자(SiftNinja)가 바로 그 서비스이다. 이 서비스는 게시물이나 코멘트에 규정을 위반되는 내용이 있을 경우, 클라이언트가 플래그를 지정할 수 있다. 레딧(Reddit) 같은 플랫폼과 뉴욕타임스, 월스트리트저널 등 언론사는 퍼스펙티브를 주로 사용한다. 퍼스펙티브는 악의적인 정도를 기반으로 인간의 검토를 위해 게시물과 코멘트를 플래그 지정하며 우선순위를 정한다.

시프트닌자는 혐오 표현 탐지에 너무 관대하여 변형된 표현을 거의 모두 감지하지는 못했지만, 퍼스펙티브는 지나칠 정도로 철저했다. 퍼스펙티브는 18개의 혐오 카테고리 대부분을 잘 잡아냈다. 하지만 재생산된 비방 및 대항 표현 같은 비혐오적 표현에도 대부분 플래그를 지정했다. 연구원들이 최고의 언어 AI 기술을 대표하며, 상업용 콘텐츠 조정 시스템의 토대 역할을 하는 구글의 두 가지 학술 모델을 테스트하자, 동일한 패턴이 발견됐다. 학술 모델은 또한 보호 집단이 어디냐에 따라 고르지 못한 성능을 보여주었다. 일부 그룹에 대한 혐오 표현을 자주 잘못 분류했다.

이 결과는 오늘날 AI 기반 혐오 표현 탐지에서 가장 어려운 부분을 보여준다. 탐지를 너무 적게 하면 여러분은 문제를 해결할 수 없다. 탐지를 너무 많이 하면 여러분은 소외계층이 스스로를 방어하기 위해 사용하는 언어를 검열하게 될 수 있다. 옥스퍼드대학 인터넷 연구소(Oxford Internet Institute) 박사과정생이자 논문의 공동 저자인 폴 뢰트거(Paul Röttger)는 다음과 같이 지적한다. “여러분은 가장 자주 증오의 대상이 되는 바로 그 커뮤니티를 불리하게 할 수 있다.”

직소의 소프트웨어 수석 엔지니어인 루시 바서만(Lucy Vasserman)은 퍼스펙티브가 최종 결정을 내리기 위해 인간 중재자에게 의존함으로써 이런 한계점을 극복한다고 주장한다. 그러나 이 프로세스는 대형 플랫폼으로 확장이 불가능하다. 직소는 현재 퍼스펙티브가 정한 불확실성을 기준으로 게시물과 코멘트의 우선순위를 재지정하는 기능을 개발 중이다. 이 기능은 혐오스러운 내용을 자동 제거하고, 경계선 컨텐츠(Borderline Content)에 경고 플래그를 붙인다.

루시는 첨단 기술의 수준을 정밀하게 평가하는 방법을 제시한다는 면에서 새로운 연구가 흥미롭다고 주장한다. 그녀는 또한 이렇게 말한다. “이 논문에서 강조된 여러 내용들, 예를 들면 언어 모델에게 있어서 재생산된 단어는 해결하기 어려운 과제이다. 이는 업계에서 알려져 있지만 수치화하기가 매우 어렵다.” 직소는 이제 증오체크를 사용하여 모델 간의 차이점과 개선이 필요한 부분을 더 잘 파악하고 있다.

학계도 이 연구에 기대하는 바가 크다. 워싱턴대학의 언어 AI 연구원인 마르텐 삽(Maarten Sap)은 다음과 같이 주장한다. “이 논문은 산업용 시스템을 평가할 훌륭한 자료를 제공한다. 덕분에 기업과 사용자는 개선을 요구할 수 있다.”

럿거스대 사회학과 토마스 데이빗슨(Thomas Davidson) 조교수는 여기에 동의한다. 그는 언어 모델의 한계와 언어가 갖는 모호함은 혐오적인 표현을 과소 식별(Under-identifying)하고 과대 식별(Over-identifying)하는데 있어서 항상 절충이 있을 것이라는 의미라고 주장한다. 또한 “증오체크 데이터세트 덕분에 이런 절충이 가시화될 전망이다”라고 덧붙였다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.