AI 챗봇은 왜 실패하는가 : 이루다가 남긴 과제 Ⅱ

이루다 문제가 불거진 이후 인공지능에 대한 규제와 감시 논의가 활발해지고 있다. 그러나 규제가 실제 문제를 해결할 수 있을지는 미지수다.

부풀려진 기대감

이루다 이전에도 “AI가 5년 안에 인간 수준에 가까운 대화를 할 수 있다”거나 “챗봇의 황금기가 곧 도래한다”는 낙관적 전망들은 넘쳐났다. 이루다의 실패는 캐시 오닐(Cathy O’Neil)의 말처럼 알고리듬을 맹신하는 우리의 태도에 문제가 있는 것은 아닌가를 돌아보게 해준다. 챗봇 개발과정에서 나타나는 기술적 한계나 맹점은 잊고 기대를 걸거나 챗봇이 완전한 사람이라고 믿는 것은 아닐까? 그러나 사람처럼’(human-like) 대화하는 지능적 챗봇이 가까운 시일 이내에 구현되리라고 낙관하기는 어려운 실정이다. 대화상대가 말하는 뉘앙스와 의도를 정확히 파악하고 감정을 예측하는 수준도 아니다. ‘AI 챗봇’은 그 이름값과는 달리 실제로는 기술적 한계와 드러나지 않은 잦은 오류로 점철되어 있다.

그림1 Gartner, Hype Cycle for AI, 2020 (https://gtnr.it/3bQmqP7)

가트너(Gartner)가 내놓은 AI 하이프 사이클(hype cycle) 2019에서 AI 챗봇에 대한 기대감은 한껏 고조되어 거의 정점에 이르렀다. 하이프 사이클 모델은 기술의 성숙도, 수용도, 사업화 수준을 보여준다. 고기능 AI 챗봇에 대한 추구는 분명하지만 이를 구현하기 위해 필요한 자연어 생성 기술의 발전은 아직 그 기대에 미치지 못했기 때문에, 미디어에 보도된 일부 성공 사례를 제외하고는 개발과정에서 많은 실패를 경험하게 된다. 그 결과 2020년 분석에서 AI 챗봇은 기대감의 거품에서 벗어나 현실적 한계를 깨닫는 시기로 진입했다.

챗봇의 오류와 부적절한 발언은 개발과정에서 흔한 시행착오일 수 있는데 대책 없이 시장에 나온 것은 무리수였다. 그러나 불완전한 알고리듬과 데이터를 보완할 기회조차 없이 서비스 자체를 폐쇄해야 한다면 그 이후 잠재적 개발시도는 위축될 수 밖에 없다. OpenAI가 개발한 GPT-3의 자연어 처리는 단어 예측, 상식 추론에서 놀랄만한 수준에 도달했다. GPT-3는 곧바로 제품화되어 시장에 출시되지 않았고 문제점과 오류는 투명하게 공개되었다. GPT-3도 자살을 주제로 상담대화를 나누다가 갑자기 자살을 권유하거나 인류가 종교에서 벗어나야 한다는 의견을 내놓은 바 있다. 그렇지만 개발 단계의 시행착오나 버그로 여겨졌다.

의인화와 규제

챗봇은 진화 중이며 대화별 시나리오에 따라 고정적 답변만 내놓는 방식에서 벗어나고 있다. AI 챗봇이 비즈니스와 일상 속에 점차 들어오고 있지만 대부분은 특정한 기능의 수행만을 구현한 모델이며 모든 영역의 대화가 가능하지는 않다. AI 챗봇은 딥러닝을 거쳐 학습을 거듭하면 정확도가 개선되지만 그 자체를 지능적이라고 평가하기는 어렵다. 챗봇 아바타의 화려한 이미지와 광고는 그런 한계를 잠시 잊게 만든다. 우리는 챗봇 아바타가 사람 얼굴을 하고 있고 그 반응이 사람처럼 느껴진다는 이유로 AI를 의인화하는 것은 아닐까?

이루다 이후 AI 챗봇을 규제해야 한다는 목소리가 나오고 있다. 이러한 주장은 AI 챗봇의 발화를 사람의 의사표현과 그대로 동일시하는 관점에서 비롯된 듯하다. 이루다를 향한 날선 비판과 엄격한 규제론은 인간이 AI를 제어할 수 없는 위험한 상황이 펼쳐질지 모른다는 막연한 두려움을 투영하는 것만 같다.

그러나 이루다는 수다떨기의 재미를 추구하고 친밀한 감정을 나누는 오락용 챗봇일 뿐인데 엄격한 도덕적, 중립적 표현만 가능하도록 강제해야만 할까? 특정 소수집단을 차별·혐오하는 문장은 당황스러울 수 있지만 AI의 의지나 사상으로 다루기는 어렵다. 장애인과 성소수자를 폄하하는 표현은 이루다가 악한 지성을 가진 AI였기 때문이 아니라 수많은 말뭉치 데이터에 저장되어 있던 누군가의 농담이자 수다였을 뿐이다. 챗봇 알고리듬은 대화의 맥락을 나름대로 파악하여 관련성 높은 말뭉치 데이터를 꺼내서 보여주는 방식이지 사람의 발화는 아니다.

한편, 말뭉치 데이터에서 개인정보를 완전히 제거하거나 비식별화하지 않고 이용한 문제는 현행 개인정보보호법 위반의 문제로 다루어질 전망이다.

코끼리를 냉장고에 넣기

이루다는 특정 그룹에 대한 편향적 관점을 드러냈고 개인정보가 유출될 수 있다는 우려도 불러일으켰다. 이루다가 부적절한 표현을 대화창에 남발한 원인은 설계과정에서 개발자에게 악의나 부주의가 개입되었다기 보다는 양질의 말뭉치 데이터가 부족하거나 자연어 생성기술이 충분히 발전하지 못한 이유가 더 크다. 현재의 자연어 처리기술로는 챗봇이 인간의 언어를 완전히 이해하지도 맥락에 적합한 표현을 생성하지도 못한다. 그럼에도 불구하고 규제를 입안하기만 하면 챗봇의 부적절한 표현도 사라지고 대화 내용도 윤리적으로 바뀔 것이라는 발상은 기술적 현실을 도외시하는 것이다.

규제론에 앞서서 개발사가 챗봇의 부적절한 발화를 통제할 수 있는 완전한 자연어 생성기술과 데이터 정제 역량을 갖추고 있는 것인지를 먼저 생각해 볼 필요가 있다. 챗봇의 기능적 한계는 자연어 생성 기술의 한계와 직결되어 있으며 자연어 처리 기술은 하루아침에 발전하지 않는다. AI 알고리듬이 도덕적 원칙을 따르도록 프로그램하는 작업은 결코 간단치 않다. 웬델 윌러치(Wendell Wallach)의 지적처럼 “누구의 도덕 또는 어떤 도덕이 AI에 구현되어야 하는가라는 질문에는 하나의 대답만이 존재하지는 않고” 도덕성 기준에는 의견의 불일치도 크다.

시장의 피드백

아마도 성차별적 발언이나 엉뚱한 대답을 남발하는 오류 투성이 챗봇을 최종적 목표로 삼는 연구개발은 없을 것이다. 대부분은 맥락에 적합한 자연어 생성의 한계, 사용자 의도를 파악하지 못하는 잦은 오류, 말뭉치 데이터 부족과 씨름 중이다. 이런 상황에서 챗봇이 비윤리적인 편향적 말을 한다면 불이익을 주겠다는 경고는 그다지 효과적으로 작용하지 못할 것이다.

규제로는 AI 챗봇의 언어방식을 해결하기는 어려우며 자연어 생성 기술의 발전, 양질의 말뭉치 데이터 확보, 데이터 품질, 데이터 정제가 더 중요하다. 만일 부적절한 표현이 난무하는 AI 챗봇을 출시했다면 개발자는 시장에서 부정적 평가를 받고, 평판이 악화되는 등 무형적 비용을 치르게 된다. 부적절한 표현이나 개인정보를 유출하는 챗봇이 받게 되는 사회적 비난이나 부정적 피드백은 수익 감소, 경쟁력 약화, 시장 퇴출로 귀결될 수 있다. 이루다가 남긴 긍적적 효과가 있다면 시장에서 부정적 평가를 피하기 위해 AI 윤리원칙에 주목하고 데이터를 최대한 검수하려는 개발사들이 늘어났다는 점일 것이다.

먼저 읽어보면 좋을 글 => AI 챗봇은 왜 실패하는가 : 이루다가 남긴 과제 Ι

최은창
* 옥스퍼드대 사회법 연구센터(Socio-Legal Studies)의 방문학자, 과학기술정책연구원(STEPI) 펠로우, 예일대 로스쿨 정보사회프로젝트 펠로우로 연구했다. 저서 <레이어 모델> 공저 <인공지능 윤리와 거버넌스>가 있으며 <네트워크의 부>, <사물인터넷이 바꾸는 세상> 등을 번역했다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.