This avocado armchair could be the future of AI

인공지능의 미래를 보여주는 아보카도 안락의자

오픈AI는 자연스러운 문장을 만들어내는 인공지능 모델 GPT-3로 세상을 놀라게 했다. 이제 자연어처리와 이미지 인식을 결합한 새로운 AI 모델 2가지를 새롭게 개발, GPT-3의 기능을 확장했다. 인공지능이 일상의 개념들을 보다 잘 이해하게 된다.

오픈AI는 엄청나게 많은 텍스트를 던져주는 것만으로 인공지능(AI)이 언어를 다양한 방식으로 사용하도록 훈련시킬 수 있음을 보여주었다. 이어 학습 대상만 텍스트에서 픽셀로 바꾸어, 같은 방식으로 AI를 훈련시켜 반쯤 그려진 이미지를 완성시키게끔 하는 ‘이미지 GPT’ 프로젝트도 성공했다. GPT-3는 사람이 단어를 사용하는 법을 모방한다. 이미지 GPT-3는 사람이 보는 것을 예측한다.

이제 오픈AI는 이러한 아이디어들을 결합해 DALL-ECLIP이라는 두 가지 새로운 인공지능 훈련 모델을 새로 개발했다. 이 모델들은 언어와 이미지를 결합해 인공지능이 단어와 그 단어가 무엇을 가리키는 지를 더 잘 이해하도록 한다.

오픈AI 수석 과학자 일리아 수츠케버(Ilia Sutskever)는 “우리는 시각적 세계에 산다”며 “장기적으로, 텍스트와 이미지를 모두 이해하는 AI 모델이 나올 것이다. AI는 단어와 문장이 무엇을 의미하는지 볼 수 있기 때문에 언어를 더 잘 이해하게 될 것”이라고 말했다.

GPT-3는 놀라운 성능에도 불구하고, 현실과 동떨어진 것처럼 느껴지는 결과물을 내놓는 경우가 종종 있다. 마치 자기가 무슨 말을 하는지 모르는 채 말을 하는 듯하다. 그건 GPT-3가 실제로 자기가 무슨 말을 하는지 모르기 때문이다. 이미지에 기반을 두고 텍스트를 이해하게 함으로써 AI 언어 모델이 사람들이 사물을 이해하기 위해 사용하는 일상의 개념들을 더 잘 이해하게 할 수 있으리라고 학계에선 보고 있다.

DALL-E와 CLIP은 각자 다른 방향에서 이 문제에 접근한다. 얼핏 보기에 CLIP(Contrastive Language-Image Pre-training, 언어-이미지 대조 기반 사전 훈련)은 이미지 인식 시스템의 하나 같다. 차이가 있다면 대부분의 다른 언어모델처럼 설명 레이블이 달린 이미지들의 데이터세트를 갖고 훈련하는 것이 아니라, 인터넷에서 가져온 이미지와 그 설명(캡션)으로 이미지 인식을 훈련한다는 것이다. CLIP은 이미지에 붙어 있는 ‘고양이’나 ‘바나나’ 같은 한 단어짜리 레이블이 아니라 이미지에 대한 설명을 보고 이미지 안에 무엇이 있는지 학습한다.

CLIP은 무작위로 고른 3만 2,768개의 캡션 중 주어진 이미지에 가장 적합한 것이 무엇인지 예측하도록 훈련된다. 이를 위해 CLIP은 다양한 사물들을 그들의 이름과 그들을 묘사하는 단어들과 연결하는 법을 배운다. 이로써 학습 데이터세트에 포함되지 않은 이미지 속 사물도 인식할 수 있게 된다. 대부분 얼굴 인식 시스템은 감시 영상 속의 얼굴이나 위성 사진 속의 건물처럼 특정한 종류의 객체를 식별하도록 학습된다. 반면 CLIP은 GPT-3와 마찬가지로 추가적 훈련 없이도 여러 성격의 과제를 일반적으로 수행할 수 있다. 인공지능을 혼란시킬 목적으로 변형된 데이터가 주입되어도 잘못된 결과를 내놓을 확률이 다른 최신 이미지 인식 모델에 비해 낮다. (사람이 인식하지 못 하는 미묘한 변형이 인공지능 알고리즘을 혼란에 빠뜨리는 경우가 간혹 있다.)

한편 DALL-E – 영화에 등장하는 로봇 WALL-E와 화가 달리를 활용한 말장난인 듯 하다 – 는 이미지를 인식하는 것이 아니라 그린다. 인터넷에 있는 텍스트와 이미지 쌍들로 학습한, 작은 버전의 GPT-3라 할 수 있다. ‘해가 뜨는 초원에 앉아 있는 카피바라(남미에 서식하는 토끼같이 생긴 설치류 동물)의 그림’이나 ‘호두의 단면도’ 같은 짧은 자연어 캡션을 갖고 이에 상응하는 수많은 이미지들을 생성한다. 온갖 모양과 크기의 카피바라 수십 마리가 주황색이나 노란색 배경 앞에 있는 모습이나, 끝없이 늘어선 호두 – 비록 모든 호두 그림이 단면도인 것은 아니지만 말이다 – 등의 이미지다.

초현실적이 되다

결과는 놀라운 수준이지만, 여전히 불완전한 결과물도 혼재되어 있다. ‘파란 딸기가 그려진 스테인드 글래스 창문’이라는 캡션을 주었을 때 정확한 이미지도 많이 나왔지만, 파란 창문과 빨간 딸기가 그려진 결과물들도 있었다. 창문이나 딸기 비슷한 사물이 아예 없는 이미지들도 있었다. 결과물들은 오픈AI 블로그에서 확인할 수 있는데, 여기 올라온 이미지들은 오픈AI 연구팀이 아니라 CLIP이 고른 것이다. CLIP은 DALL-E가 생성한 이미지 중 각 캡션에 가장 잘 들어맞는다고 판단한 이미지 32개를 골라냈다.

조지아공대(Georgia Institute of Technoloty)에서 자연어처리(NLP)와 컴퓨팅 기반 창의성을 연구하는 마크 리들(Mark Riedl)은 “텍스트-이미지 변환은 오래 동안 연구되어 온 과제”라며 “오픈AI의 이번 성과는 특히 인상적이다”라고 말했다.

‘아기 무가 발레 치마를 입고 개를 산책시키는 모습’이라는 캡션을 보고 DALL-E가 생성한 이미지들 자료. 오픈AI

새로운 개념을 접했을 때 DALL-E가 어떻게 작업하는지 테스트하기 위해 연구진은 ‘아보카도 안락의자’나 ‘아기 무가 발레 치마를 입고 개를 산책시키는 모습’ 등 인공지능이 과거에 접해보지 못했으리라 생각되는 내용을 담은 캡션을 제시했다. 두 캡션 모두에 대해 AI는 이러한 개념들을 상당히 그럴듯하게 결합한 결과물들을 내놓았다.

특히 안락의자 이미지들은 거의 대부분 아보카도처럼 보인다. DALL-E 개발에 참여한 아디티야 라메시(Aditya Ramesh)는 “내게 가장 놀라운 점은 이 모델이 서로 무관한 두 개념을 결합해 제법 쓸만한 결과를 내었다는 점”이라고 말했다. 이건 아마 반으로 자른 아보카도가 등이 높은 안락의자와 비슷하게 생겼기 때문일 수 있다. 아보카도 씨가 들어있던 파인 곳은 마치 쿠션처럼 보이기도 한다. ‘하프로 만든 달팽이’ 같은 캡션에 대해서는 달팽이와 하프가 어색하게 결합하는 등 결과가 아보카도 사례만큼 좋지는 않았다.

DALL-E는 리들이 2014년 제안한 사고실험 ‘러브레이스 2.0 테스트’에 참여할 법한 인공지능 시스템이다. 이 테스트는 인공지능이 실제 지능이 있는지 확인하기 위한 것으로, 튜링 테스트를 대신한다. 여러 개념을 창의적 방법으로 혼합하는 것이 지능의 증거라는 것을 전제로 한다. 리들은 컴퓨터에게 펭귄을 든 남자의 그림을 그려보라고 하는 것이 챗봇에게 사람 흉내를 내서 대화하라고 하는 것보다 더 좋은 지능의 기준이 된다고 주장했다. 이 편이 보다 확장 가능하고, 속이기도 어렵기 때문이다.

리들은 “진정한 테스트는 AI가 안전 지대 영역 밖으로 얼마나 멀리 나갈 수 있는지 보는 것”이라고 말한다.

‘하프로 만든 달팽이’라는 캡션을 보고 DALL-E가 생성한 이미지 자료. 오픈AI

앨런인공지능연구소(AI2, Allen Institute for Artificial Intelligence) 애니 켐바비(Ani Kembhavi) 연구원은 “엉뚱한 텍스트에서도 합성 이미지를 생성해내는 DALL-E의 능력이 인상적”이라고 말했다. 그 역시 텍스트에서 이미지를 생성하는 시스템을 개발한 바 있다. 켐바비의 동료인 조재민 연구원도 “기존 텍스트-이미지 생성기는 다양한 객체를 이 정도 수준으로 통제하거나 이 정도의 공간 추론 능력을 보여주지 못 했다”고 말했다.

그러나 DALL-E는 이미 한계도 보이고 있다. 캡션에 너무 많은 객체를 넣으면 무엇을 그려야 할지 갈피를 못 잡는다. 뜻은 같게 유지하면서 캡션을 다시 쓰면 다른 결과물을 내놓기도 한다. DALL-E가 새로운 이미지를 그리는 것이 아니라 과거 온라인에서 봤던 이미지를 모방하는 것 같다는 징후도 있다.

리들은 “무의 사례가 조금 의심스럽다. 그림체를 봤을 때 인터넷에서 본 그림을 기억한 결과일 수도 있다”라고 말했다. 그는 잠깐만 검색해 봐도 무를 의인화한 만화 이미지를 많이 찾을 수 있다는 점을 지적한다. 그는 “DALL·E가 기반으로 하는 GPT-3는 기억력이 좋기로 유명하다”라고 말한다.

하지만, 대부분의 AI 연구자들은 시각적 이해에 기초하는 언어가 AI를 더 똑똑하게 만드는 좋은 방법이라는 데 동의한다.

수츠케버는 “미래는 이와 같은 인공지능 시스템으로 구성될 것”이라며 “이 두 모델 모두 그 같은 인공지능 시스템을 향한 발걸음들이다”라고 말한다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.