Jumbled-up sentences show that AIs still don’t really understand language

인공지능이 언어를 이해하지 못 한다는 증거

인공지능은 문장 속 단어 순서가 바뀌어도 알아채지 못 한다. 이 문제는 AI 성능을 개선하는 방법을 찾는 힌트가 되기도 한다.

많은 인공지능(AI)이 언어를 이해하는 것처럼 보이고, 문해력 테스트에서 사람보다 더 높은 점수를 받기도 한다. 그러나 이들 AI 대부분은 문장의 단어가 뒤죽박죽 섞여 있어도 알아채지 못 한다. 이는 AI가 실제로 언어를 이해하는 것은 아니라는 점을 보여준다. 문제는 자연어처리(NLP) 시스템의 훈련 방식에 있다. 또한 이 문제는 자연어처리 시스템을 개선할 방법을 시사하기도 한다.

앨라배마주 오번대학(Auburn University)과 어도비 연구소(Adobe Research) 연구진은 자연어처리 시스템이 왜 서로 다른 문장을 같은 의미라고 주장하는 등의 행태를 보이는지 이유를 찾는 과정에서 이 문제점을 발견했다. 언어 모델들의 접근 방식을 테스트해 본 결과, 문장 속의 단어를 섞어도 결과에는 차이가 나타나지 않았다. 연구를 이끈 오번대 안 응옌(Anh Nguyen)은 “이 문제는 모든 NLP 모델에서 나타나는 보편적인 현상”이라고 주장했다.

연구팀은 구글이 개발한 언어 모델 BERT를 기반으로 하는 몇몇 최첨단 NLP 시스템을 들여다 보았다. 이들은 모두 GLUE(일반어 이해 평가: General Language Understanding Evaluation)에서 사람보다 더 높은 점수를 얻는다. GLUE는 같은 뜻을 다르게 표현한 문장을 찾는 능력이나, 문장에 담긴 정서가 긍정적인지 부정적인지 판단하는 능력, 언어 추론(Verbal Reasoning) 같은 언어 이해 능력을 인공지능에게 학습시키거나 평가하기 위해 고안된 과제들이다.

사람이 개를 문다

연구원들은 NLP 시스템들이 문장 속 단어가 뒤섞여 있어도 알아채지 못 하며, 심지어 단어 순서 변경으로 의미가 바뀐 경우에도 마찬가지라는 것을 발견했다. 예를 들어, NLP 모델들은 “마리화나는 암을 유발하는가?”와 “마리화나 사용이 사람을 폐암에 걸리게 하나?”라는 질문이 같은 의미임을 정확히 짚었다. 그러나 시스템은 “마리화나 폐가 어떻게 피우는 암을 유발할 수 있는가? (You smoking cancer how marijuana lung can give?)”와 “폐는 어떻게 마리화나 피우기를 유발할 수 있을까? (Lung can give marijuana smoking how you cancer?)”처럼 뒤죽박죽인 문장도 똑같은 의미로 받아들인다. 이들은 또한 “마리화나는 암을 유발하는가?”와 “암은 마리화나를 유발하는가?”라는 반대 의미의 문장이 같은 질문을 하고 있다고 해석한다.

언어 모델은 문장의 문법 구조를 따지는 과제에서만 단어 순서를 중요하게 간주했다. 그렇지 않은 경우, 이들 언어 모델의 응답의 75-90%는 단어 순서가 섞였다해서 바뀌지 않았다.

무슨 일이 일어나고 있는가?

모델은 단어의 배치 순서에 관계없이, 문장에서 몇 개의 핵심 단어를 골라내는 것으로 보인다. 이들은 사람이 언어를 이해하듯 언어를 이해하지 못하며, 널리 쓰이는 언어 이해력 평가 기준인 GLUE는 인공지능이 정말로 언어를 제대로 사용하는지 측정하지 못 한다. 인공지능 언어 모델이 훈련하는 과제는 단어 순서나 구문을 유의하도록 하지 않는 경우가 많다. 다시 말해, GLUE는 NLP 모델에게 매우 어려운 것을 가르치는 셈이다.

많은 연구자들이 슈퍼글루(SuperGLUE)라는 난이도 높은 테스트 세트를 사용하기 시작했지만, 누옌은 슈퍼글루 역시 비슷한 문제를 안고 있으리라 생각한다.

요슈아 벤지오(Yoshua Bengio)와 동료 연구진도 이 문제를 확인했다. 대화에서 단어 순서를 바꾼 경우에도 종종 챗봇의 반응은 바뀌지 않는다는 사실을 발견했다. 또 페이스북 AI 연구소(Facebook AI Research) 연구팀은 중국어에서 같은 사례를 찾아냈다.

이 기사는 유료 구독자 전용 콘텐츠입니다.

유료 멤버십 플랜 보기