AI just beat a human test for creativity. What does that even mean?

챗GPT 등 AI, 창의력 시험서 인간 능가했다

챗GPT 같은 AI 대형언어모델(LLM)이 인간의 창의성을 모방하는 데 점점 더 능숙해지고 있는 것으로 나타났다. 그렇다면 이제 이들이 인간의 고유한 능력으로 간주되던 창의성을 발휘할 수 있는 걸까?

인간의 창의력을 측정하기 위해 고안된 테스트를 통과하는 인공지능(AI)의 실력이 점점 더 개선되고 있는 것으로 나타났다. 14일(현지시간) 세계적인 과학저널 〈네이처〉의 자매지인 〈사이언티픽 리포트(Scientific Reports)〉에 실린 연구 결과에 따르면 AI 챗봇은 창의력 평가에 주로 사용되는 ‘대체용도과제(Alternate Uses Task)’ 테스트에서 평균적으로 인간보다 높은 점수를 획득해 놀라움을 줬다.

이번 연구는 AI 전문가들 사이에서 컴퓨터가 인간을 위해 고안된 테스트를 통과한다는 게 어떤 의미인지를 둘러싼 논란을 가열시킬 것으로 보인다.

이 연구 결과가 반드시 AI도 인간에게 고유한 능력을 갖게 되고 있다는 걸 의미하지는 않는다. 단지 AI가 창의성 테스트를 통과할 수 있다는 의미에 불과하고, 실제로 우리 인간이 이해하는 방식으로 창의적이라는 걸 알려주는 건 아닐 수 있다. 하지만 이와 같은 연구는 인간과 기계가 창의적인 작업에 어떻게 접근하는지 더 잘 이해하는 데 도움을 줄 것으로 기대된다.

연구진은 오픈AI의 챗GPT와 GPT-4 및 GPT-3에 기반한 Copy.Ai 등 세 가지 AI 챗봇에게 밧줄, 상자, 연필, 양초 네 가지 사물의 용도를 단 30초 안에 최대한 많이 생각해낼 것을 요구하며 테스트를 시작했다.

연구진은 이 대형언어모델들에 각 사물에 대한 독창적이고 창의적인 용도를 제시하라는 지시를 내렸다. 또 지시 도중 아이디어의 양보다 질이 더 중요하다는 사실을 인지시켰다. 각 챗봇은 밧줄, 상자, 연필, 양초 각각에 대해 11번씩 테스트를 거쳤다. 연구진은 256명의 인간 참가자를 대상으로도 동일한 지시를 내리며 테스트를 실시했다.

연구진은 두 가지 방법을 사용해 AI와 사람의 반응을 모두 평가해 봤다. 첫 번째는 위 네 사물에 대해 제안된 용도가 사물의 원래 목적에 얼마나 근접한지를 평가하는 알고리즘이었다. 두 번째는 6명의 사람 평가자(일부 답변이 AI 시스템에 의해 생성됐다는 사실을 모르는 상태로)에게 각 답변이 얼마나 창의적이고 독창적인지 1점부터 5점(‘전혀 그렇지 않다’는 1점, ‘매우 그렇다’는 5점)까지의 척도로 평가해 보도록 시켰다. 그런 다음 인간과 AI의 평균 점수를 계산해 봤다.

결과는 어땠을까?

놀랍게도 평균적으로 챗봇의 응답이 사람의 응답보다 더 나은 것으로 평가됐지만 최고 점수를 받은 사람의 응답 점수가 더 높았다.

연구를 공동 주도한 노르웨이 베르겐 대학교의 시몬 그라시니(Simone Grassini) 심리학과 부교수는 “AI 시스템이 창의적인 역할에서 인간을 대체할 수 있다는 것을 증명하는 게 이번 연구의 목적은 아니었다”면서 “인간만이 가진 고유한 특성에 대한 철학적 질문을 제기하는 것이 목적”이라고 설명했다.

그는 이어 “우리는 지난 몇 년 사이 인간의 행동을 모방하는 면에서 기술적으로 매우 큰 도약이 있었다는 것을 보여줬다”면서 “이러한 모델은 부단히 진화하고 있다”고 덧붙였다.

연구에는 참여하지 않은 앨런튜링 연구소의 선임 연구 라이언 버넬(Ryan Burnell)은 기계가 인간의 창의성을 측정하기 위해 고안된 작업을 잘 수행할 수 있다는 것을 입증한다고 해서 기계가 독창적인 사고에 근접할 수 있다는 것을 의미하는 것은 아니라고 말한다.

테스트에 사용된 챗봇은 ‘블랙박스’, 즉 어떤 데이터로 학습했는지, 어떻게 응답을 생성하는지 정확히 알 수 없다는 것이다. 버넬은 “AI 모델이 새롭고 창의적인 아이디어를 내놓았다기보다는 훈련 데이터에서 본 것을 토대로 아이디어를 내놓았다는 설명이 훨씬 더 개연성이 있다”면서 “이런 경우 우리가 창의성을 측정하고 있다기보다는 이런 종류의 작업에 대한 모델의 과거 지식을 측정하는 것이라고 하는 편이 더 옳다”라고 설명했다.

그렇다고 해서 기계와 인간이 특정 문제에 접근하는 방식을 비교하는 것이 여전히 유용하지 않다는 의미는 아니란 게 MIT의 박사후 연구원 안나 이바노바(Anna Ivanova)의 생각이다. 이바노바는 이번 프로젝트에 참여하지 않은 언어모델을 연구하는 중이다.

그러나 아바노바는 “챗봇이 특정 요청을 완수하는 데는 매우 능숙하지만 명령어의 문구를 바꾸는 것처럼 약간만 조정을 하더라도 제대로 작동하지 않을 수 있다는 점을 명심해야 한다”고 당부했다.

이바노바는 “이런 종류의 연구를 할 때는 AI 모델에 요청하는 작업과 측정하고자 하는 인지 능력 사이의 연관성을 따져봐야 한다“면서 “사람과 모델이 같은 방식으로 문제를 해결한다고 가정해서는 안 된다”고 강조했다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.