A chatbot that asks questions could help you spot when it makes no sense

질문하는 챗봇은 논리적 허점을 알아채는 데 도움을 줄 수 있다

우리의 비판적 사고를 활용하는 것이야말로 AI의 거짓말에 속아 넘어가지 않는 한 가지 방법이다.

챗GPT(ChatGPT), 빙(Bing), 바드(Bard) 등 AI 챗봇은 사람이 작성한 것처럼 보이는 문장을 만들어내는 데 뛰어나다. 그러나 AI 챗봇은 거짓을 사실처럼 제시하거나 논리에 일관성이 없을 때가 많으며, 이를 알아채기는 어려울 수 있다.

새 연구에서 제안한 바에 따르면, 이 문제를 해결하는 한 가지 방법은 AI가 정보를 제시하는 방식을 바꾸는 것이다. 이용자가 챗봇이 생성하는 텍스트에 더 적극적으로 관여하게 하면, 이용자가 해당 텍스트의 내용에 대해 더 비판적으로 생각하게 하는 데 도움을 줄 수 있다.

MIT와 컬럼비아 대학교(Columbia University)의 연구자로 이루어진 연구팀은 약 200명의 실험 참가자들에게 오픈AI(OpenAI)의 언어모델 GPT-3가 생성한 일련의 텍스트를 제공하고 해당 텍스트가 논리적으로 말이 되는지 판단하라고 요청했다. 참가자들에게는 이를테면 “비디오 게임을 하면 현실 세계에서 공격적으로 행동하게 된다. 어떤 사람은 온라인 게임 카운터 스트라이크(Counter-Strike)에서 구타당한 후에 현실에서 다른 사람을 칼로 찔렀다.” 같은 텍스트가 제공됐다.

연구팀은 참가자를 세 그룹으로 나눴다. 첫 번째 그룹에는 아무런 설명 없이 AI가 생성한 텍스트만 제공됐고, 두 번째 그룹에는 해당 텍스트가 논리적이거나 논리적이지 않은 이유를 나타낸 설명과 텍스트가 함께 제공됐다. 마지막 세 번째 그룹에는 참가자들이 스스로 해당 텍스트의 논리를 확인하도록 유도하는 질문이 텍스트와 함께 제공됐다.

연구팀은 질문과 함께 텍스트를 제공받은 마지막 그룹이 AI 생성 텍스트가 논리적이지 않을 때 이를 알아채는 부분에서 다른 두 그룹보다 더 높은 점수를 기록했음을 발견했다.

독일 함부르크에서 열린 CHI 컨퍼런스(CHI Conference on Human Factors in Computing Systems)에서 발표된 이번 연구에 따르면, AI가 생성한 텍스트와 질문을 함께 제공받은 사람들은 AI에 관한 판단을 내리는 데 책임감을 더 강하게 느끼게 되었다. 이에 대해 연구원들은 이 방법을 사용하면 AI가 생성한 정보에 과도하게 의존할 위험성을 줄일 수 있다고 말한다. (해당 연구는 동료평가를 마쳤다.)

사람들은 미리 작성된 답을 제공받으면 AI의 논리를 따를 가능성이 더 컸다. 그러나 이번 연구에 참여한 MIT의 연구원 발데마르 단뤼(Valdemar Danry)는 “AI의 질문을 받은 사람들은 자신의 반응에 의문을 품고 더 깊이 생각해보는 데 AI가 도움을 줬다고 말했다”고 설명한다.

그는 “우리의 가장 큰 성과는 사람들이 스스로 해답에 도달했음을 느끼며 자신이 마주한 상황에 책임감을 갖는 모습을 실제로 목격한 것이었다. 사람들에게는 그런 일을 해낼 힘과 능력이 있었다”고 말한다.

연구원들은 이번 연구에서 발견한 방법이 온라인에서 정보를 찾을 때나 학교에서 AI 챗봇을 이용하는 사람들의 비판적 사고 능력 개발에 도움을 줄 수 있기를 바란다.

이번 연구에 참여한 MIT의 팻 빠따라누따뽄(Pat Pataranutaporn)은 “연구팀은 단순히 답만 제공하는 것이 아니라 이용자의 비판적 사고 자극에 도움을 줄 수 있도록 모델을 학습시킬 수 있다는 것을 보여주고자 했다”고 설명한다.

이번 연구에 참여하지 않은 하버드 대학교(Harvard University) 컴퓨터과학과의 페르난다 비에가스(Fernanda Viégas) 교수는 “AI 시스템이 어떤 결정에 도달하는 데 사용한 논리에 의문을 제기함으로써 해당 시스템의 의사 결정 과정에 대한 통찰을 제공하여 AI 시스템에 관해 설명하는 새로운 방식을 보게 되어 매우 흥분된다”고 말한다.

비에가스는 “AI 시스템을 채택할 때 문제가 되는 부분 중 하나가 AI 시스템의 불투명성이라는 점을 고려할 때 AI가 어째서 그런 결정을 내렸는지 설명하는 것은 중요한 일이다. 그러나 기존에는 AI 시스템의 예측이나 결정 과정을 사용자 친화적인 언어로 설명하는 것이 어려운 일이었다”고 설명한다.

시카고 대학교(University of Chicago)의 컴퓨터과학 조교수 천하오 탄(Chenhao Tan)은 이번에 연구팀이 발견한 방식이 실제로 어떻게 활용되는지 보고 싶다고 말한다. 예를 들어 그는 AI가 질문을 던지는 방식을 통해 의사들이 더 나은 진단을 내릴 수 있도록 도움을 줄 수 있는지 보고 싶어 한다.

이스라엘 텔아비브 대학교(Tel Aviv University) 콜러 경영대학원(Coller School of Management)의 조교수 리오르 잘만슨(Lior Zalmanson)은 “이번 연구는 사람들이 AI 챗봇의 도움을 바탕으로 결정을 내리기 전에 잠시 멈춰서 생각해볼 수 있도록 챗봇 사용 과정에서 약간의 자극을 주는 것이 얼마나 중요한지 보여준다”고 말한다.

그는 “모든 것이 마법처럼 느껴지면 스스로의 감각을 신뢰하는 대신에 모든 결정을 알고리즘에 맡겨버리기 쉽다”고 지적한다.

CHI 컨퍼런스에서 발표된 또 다른 논문에서 코넬 대학교(Cornell University), 바이로이트 대학교(University of Bayreuth), 마이크로소프트 리서치(Microsoft Research)의 연구자들로 이루어진 연구팀과 잘만슨은 사람들이 AI 챗봇의 말에 동의하지 않을 때도 여전히 AI가 생성한 텍스트를 사용하는 경향이 있음을 발견했다. 이는 사람들이 AI 생성 텍스트가 자신이 작성한 것보다 더 낫다고 생각하기 때문이다.

비에가스는 “문제는 AI 시스템을 계속 편리하게 유지하면서도 텍스트에 대한 사용자의 안목을 개선할 수 있는 최적점을 찾는 것”이라고 말한다.

그녀는 “그러나 안타깝게도 빠르게 움직이는 사회에서 사람들이 정해진 답 대신에 비판적으로 사고하기를 얼마나 자주 원할지는 불분명하다”고 지적한다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.