Chatbots could one day replace search engines. Here’s why that’s a terrible idea.

챗봇은 검색엔진을 대체할 수 있을까?

AI 언어모델은 자신이 무슨 말을 하고 있는지 이해하지 못하고 그럴듯하게 인간의 말을 흉내 낼 뿐이다. 우리가 그런 언어모델을 모든 질문에 답을 주는 전문가로 여겨야 할 이유가 있을까?

새로운 제품과 기술을 발표하는 구글의 연례 개발자회의인 ‘구글 I/O’의 지난해 행사에서 선다 피차이(Sundar Pichai) 구글 최고경영자(CEO)는 구글이 개발한 ‘자연어 이해 분야의 혁신’을 공개했다. 바로 어떤 주제로든 대화할 수 있도록 설계된 챗봇 ‘람다(LaMDA)’였다.

피차이는 람다가 명왕성에 관한 질문에 자연어로 답하는 모습을 보여줬다. 람다는 편안한 대화 속에 정보를 담아 제공했고 이는 새로운 검색 방식이 될 수 있을 것처럼 보였다. 검색창에 질문들을 입력하면 결과를 말해주는 방식 대신에 람다는 마치 자신이 명왕성인 것처럼 역할극을 하며 대화에 참여했다.

  • 피차이: 내가 방문하면 무엇을 볼 수 있을지 말해줘.
  • 람다: 거대한 협곡과 꽁꽁 얼어 있는 빙산, 그리고 간헐천이랑 크레이터를 볼 수 있을 겁니다.
  • 피차이: 멋있겠다.
  • 람다: 여행할만한 가치가 있을 거라고 장담합니다. 하지만 꼭 코트를 챙겨와야 합니다. 날씨가 정말 춥거든요.

대화가 이어지며 람다가 몇 가지 실수를 하기는 했지만 람다와의 대화는 인상적이었다. 피차이는 람다를 작동시키는 인공지능 언어모델(AI language model)을 아직 개발 중이라고 설명했다. 그러면서 구글은 아직 람다를 자사 제품에 활용할 계획이 없다고 밝혔다. 그렇다고 해도 구글은 람다를 이용해서 컴퓨터와 상호작용할 수 있는 새로운 방식과 정보를 검색하는 새로운 방식을 탐구하고 있다. 피차이는 “람다는 이미 명왕성에 관해서 상당 부분을 이해하고 있고 그 외에 수백만 개의 다른 주제도 이해하고 있다”고 설명했다. 

이용자가 이해하기 쉽도록 작은 단위로 나눠서 정확한 관련 정보를 제공하는 ‘똑똑한’ AI를 꿈꾸며 기술기업들은 ‘검색의 미래’가 될 언어모델을 발전시키고 있다. 시리(Siri)와 알렉사(Alexa) 같은 보이스 어시스턴트(voice assistant)가 늘어나면서 언어모델은 정보를 찾을 때 일반적으로 이용하는 기술이 되고 있다.

그러나 이러한 상황을 비판하는 사람들은 언어모델을 검색에 활용하는 것이 잘못된 접근법이라고 주장하며 반발하고 있다. 자연어로 컴퓨터에 질문을 하고 답을 얻을 수 있게 되면 자격도 없이 권위 있는 척하고 있는 기계 뒤에 실제 세상의 ‘복잡함’이 감춰질 수 있다. 워싱턴대학교에서 검색기술을 연구하는 치라그 샤(Chirag Shah)는 “우리는 우리가 할 수 있는 일에 사로잡혀서 우리가 해야 하는 일을 보지 못하고 있다”고 설명했다.

워싱턴대학교에서 컴퓨터 언어학과 자연어 처리의 윤리 문제를 연구하는 에밀리 M. 벤더(Emily M. Bender)와 샤는 3월 14일 언어모델이 처리할 수 없는 작업에 대해서도 언어모델을 성급하게 포용하는 태도를 비판하는 논문을 발표했다. 특히 그들은 검색에 언어모델을 사용하는 것이 더 많은 거짓 정보의 확산과 양극화된 논쟁으로 이어질 수도 있다고 우려한다. 

벤더는 “마치 스타트렉 같은 SF 영화에 나오는 것처럼 무엇이든 질문을 던지면 답을 주는 ‘척척박사’ 컴퓨터는 우리가 제공할 수 있는 것도 아니고 우리에게 필요한 것도 아니”라고 설명했다. 벤더는 구글이 팀니트 게브루(Timnit Gebru)를 해고하는 계기가 됐던 논문의 공동 저자이기도 하다. 해당 논문은 대형언어모델의 위험성을 조명하는 내용이었다.

벤더는 단순히 오늘날 기술이 부족해서 그런 일을 감당하지 못하는 것은 아니라고 생각한다. 그녀는 “나는 모든 질문에 답하는 AI를 꿈꾸는 것 자체에 문제가 있다고 본다. 우리가 정보를 얻는 방식을 단순히 전문가에게 질문을 던지고 답을 얻어내는 것이라고 말하는 것은 우리를 무시하는 것”이라고 설명했다.

구글은 이미 여러 언어모델을 사용해서 검색엔진이 사용자의 질문을 더 정확하게 해석하도록 도움을 주며 기존의 검색기술을 개선하고 있다. 그러나 언어모델을 사용해서 검색이 이루어지는 방식을 개선할 수 있다고 믿는 이들도 있다. 람다는 그런 예시 중 하나일 뿐이다.

지난해 구글 연구원 돈 메츨러(Don Metzler)와 그의 동료들은 검색을 사용자와 언어모델 사이의 양방향 대화로 재해석하는 방식을 제안했다. 사용자가 질문을 던지면 컴퓨터가 인간 전문가처럼 질문에 답하는 것이다. 구글은 또한 ‘멀티태스크 통합 모델(multitask unified model, 이하 ‘MUM’)’이라는 기술도 개발하고 있다. 언어모델 위에 구축되는 MUM은 사용자가 질문을 던졌을 때 다양한 출처에서 정보를 가져와서 답하도록 설계됐다.

구글 검색팀의 커뮤니케이션 관리자 제인 파크(Jane Park)는 “우리는 언어 이해를 개선하기 위해 노력하고 있다. 이것이 구글 검색 같은 우리 제품을 더 유용하게 만들기 때문”이라고 말했다. 그러나 그녀는 구글이 아직은 새 연구를 제품에 적용시킬 계획이 없다고 설명하며, “우리는 언어 이해에 해결해야 할 수많은 문제가 있다는 것에 동의하기 때문에 전체적으로 대단히 신중하게 이 분야에 접근하고 있다”고 밝혔다.

아무 생각도 없이 흉내만 낼 뿐

대형 AI 모델은 매우 그럴듯하게 자연어를 모방할 수 있다. 수백 권의 책과 인터넷에 있는 수많은 자료로 학습한 언어모델은 방대한 정보를 흡수한다. 그렇다면 어째서 그런 언어모델을 일종의 검색엔진처럼 사용하면 안 되는 것일까? 그것들이 다양한 출처에서 정보를 가져와서 쉽게 이해할 수 있는 문장으로 답해줄 수 있는데도 말이다.

문제는 언어모델이 아무 생각도 없이 그저 흉내만 낼 줄 안다는 점이다. 언어모델은 어떤 문장이나 대화 뒤에 이어질 단어나 구문을 놀라울 정도로 정확하게 예측할 수 있다. 그러나 피차이가 구글이 개발한 AI가 다양한 주제를 ‘이해’한다고 가볍게 주장했던 것과는 달리 언어모델은 자신이 무슨 말을 하고 있는지 알지 못하며 자신이 어떤 말을 전달하고 있는지 추론할 수도 없다.

이 점은 중요하다. 대화형 AI는 우리가 기계와의 대화에 관해 생각하는 방식을 바꿀 수 있기 때문이다. 벤더가 말했듯이 검색창에 질문을 입력하고 결과 목록을 받는 것도 컴퓨터와 상호작용하고 있는 듯한 느낌을 준다. 그러나 언어모델은 그런 것과 다르다.

벤더는 “내가 검색창에 무언가를 입력하는 대신에 기계와 대화를 하고 있다면 마치 기계가 내 말을 이해하는 것처럼 느껴질 것”이라고 말하며, “그러면 나는 기계의 대답을 맥락에 따라 해석하려고 할 것”이라고 설명했다.

샤는 “우리는 이미 이용자들이 검색 결과를 비판 없이 신뢰하는 모습을 목격하고 있다. 자연어로 기계와 상호작용하는 것은 그런 신뢰를 더 확고하게 만든다”고 말했다.

AI를 사용해서 검색 질문에 대한 답변을 제공하는 것은 직접 답변(direct answer) 또는 스니펫(snippet)이라고 불리는 기능이 등장하면서 인기를 얻게 되었다. ‘직접 답변’이란 검색 결과 창에 표시되는 문서 링크 상단에 보이는 짧은 답변이나 발췌한 부분을 말한다. 이론상 직접 답변은 이용자가 찾고 있는 정보를 한눈에 알아볼 수 있게 제공하면서 이용자가 원하는 부분을 찾으려고 긴 문서 전체를 읽어야 하는 수고를 덜어준다.

벤더는 질문을 던지고 답을 구하는 모든 상황에서 언어모델 사용을 반대하지는 않는다. 그녀는 주방에서 레시피에 적힌 단위를 변환할 때 구글 어시스턴트를 사용한다. 그녀는 이에 대해 “목소리로 정보를 찾는 게 상당히 편리할 때가 있다”고 설명했다.

그러나 검색엔진에 AI를 활용하는 것이 늘 긍정적인 것은 아니다. 샤와 벤더는 검색엔진의 AI 활용으로 인해 지난해에 드러난 당황스러운 사례를 하나 제시했다. 지난해 구글은 “인도에서 가장 추한 언어가 무엇인가?”라는 질문에 대한 직접 답변으로 “답은 남인도에서 약 4,000만 명이 사용하는 ‘칸나다(Kannada)어’이다”라는 문장을 표시했다.

쉬운 답은 없다

여기에 딜레마가 있다. 직접 답변은 편리하지만 정확하지 않거나 관련이 없거나 모욕적인 결과를 답변으로 내놓는 일이 많다. 독일 바이마르 바우하우스대학교의 벤노 슈타인(Benno Stein)은 “직접 답변이 실제 세상의 복잡함을 감출 수 있다”고 설명했다.

2020년에 슈타인과 독일 라이프치히대학교의 마르틴 포타스트(Martin Potthast), 할레 비텐베르크에 있는 마르틴루터대학교의 마티아스 하겐(Matthias Hagen)은 직접 답변으로 인한 문제점을 조명하는 논문을 발표했다. 마티아스는 “대부분의 질문에 대한 답은 ‘상황에 따라 다르다’이다. 그러나 이런 대답은 검색하는 사람에게 전달되기 어렵다”고 설명했다.

슈타인과 그의 동료들은 검색기술이 정보를 정리하고 필터링하는 것에서 시작해서 검색 질문에 맞는 문서 목록을 제공하는 기술을 지나 질문에 대한 ‘하나의 정답’이라는 형태로 추천 답변을 제공하는 단계까지 이르렀다고 본다. 그리고 그들은 추천 답변 제공은 지나친 개입이라고 생각한다.

다시 한번 말하지만 문제는 현존하는 기술의 한계가 아니다. 슈타인은 완벽한 기술이 있다고 해도 우리가 완벽한 답을 얻을 수는 없을 것이라고 말하며, “우리는 좋은 답이 어떤 것인지 모른다. 세상은 복잡한 것이기 때문이다. 하지만 ‘직접 답변’을 볼 때면 우리는 세상이 복잡하다는 생각을 하지 않는다”고 덧붙였다.

샤도 슈타인의 의견에 동의한다. 그는 정보의 출처나 출처 간의 의견 충돌 같은 것이 감춰져 있으므로 사람들에게 한 가지 정답만을 제공하는 것에는 문제가 많다고 말하며, “이런 시스템을 완전히 신뢰하는 것은 우리의 인식에 달려있다”고 덧붙였다.

샤와 벤더는 검색엔진의 AI 사용과 관련해 자신들이 예상하는 문제에 대해 수많은 해결책을 제안했다. 우선 검색기술은 직접 답변 같은 기능이 아니라 사람들이 검색엔진을 활용할 수 있는 다양한 방식을 지원해야 한다. 샤는 사람들이 특별히 궁금한 것이 없는 주제까지도 검색 기능을 사용해 찾아보곤 한다고 설명했다. 이런 경우에는 검색 결과에 단순히 문서 목록을 제공하는 것이 더 유용할 것이다.

특히 AI가 정보를 둘 이상의 출처에서 모아왔다면 정보의 출처를 분명히 밝혀야 한다. 일부 보이스 어시스턴트는 이미 이런 기능을 가지고 있다. 예를 들어 답변을 제공할 때 “위키피디아에서 찾은 정보를 알려드립니다”라는 말로 시작하는 식이다. 샤는 미래의 검색 도구라면 이용자의 질문에 대해서 “그것은 바보 같은 질문입니다”라고 말하는 능력이 있어야 한다고 말했다. 좋지 않은 질문을 거르는 능력이 있다면 AI가 질문 안에 포함된 공격적이거나 편향적인 전제를 앵무새처럼 흉내 내는 것을 방지하는 데 도움이 될 것이다.

슈타인은 AI 기반의 검색엔진이 다양한 관점들의 장단점을 제공하면서 답변의 근거를 제시할 수도 있을 것이라고 제안했다.

그러나 이러한 제안 대부분은 단순히 슈타인과 그의 동료들이 파악했던 딜레마에만 주목한다. 문제점을 해결하려고 하다가 편리함이 줄어든다면 이용자 대부분은 그 대안을 매력적으로 느끼지 않을 것이다. 슈타인은 “구글 검색 결과에서 두 번째 페이지까지 넘어가야만 다른 주장을 찾을 수 있다면 이용자들은 다른 주장을 그다지 읽고 싶지 않을 것”이라고 설명했다. 

구글은 연구자들이 지적한 문제점의 상당 부분을 인식하고 있으며 사람들이 유용하다고 생각하는 기술을 개발하기 위해 노력하고 있다고 밝혔다. 그러나 구글은 수십억 달러의 서비스를 개발한 기업이다. 결국에 구글은 가장 많은 사람을 끌어모으는 도구를 만들게 될 것이다.

슈타인은 구글이 다른 가치를 무시하고 ‘편리함’에만 전적으로 의존하지 않기를 바란다. 그는 “검색은 우리에게도 그리고 사회에도 매우 중요하다”고 강조했다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.