This horse-riding astronaut is a milestone in AI’s journey to make sense of the world

이 말 타는 우주비행사 이미지는 AI가 세상을 이해하는 과정에서 중요한 단계를 보여준다

오픈AI가 새로 발표한 이미지생성 AI ‘DALL-E 2’가 만들어내는 이미지들은 놀라울 정도로 훌륭하다. 이 AI는 우리가 AI의 지능을 어떻게 정의해야 할지 의문을 던진다.

미국의 인공지능 연구소 오픈AI(OpenAI)가 2021년 초에 그림을 생성하는 신경망(neural network) DALL-E를 발표했을 때 DALL-E는 다양한 개념을 새로운 방식으로 조합하는 사람 같은 능력을 보여주며 사람들을 놀라게 했다. 요청에 따라 DALL-E가 생성한 일련의 이미지들은 초현실적이고 만화 같기도 했지만 한편으로는 DALL-E라는 AI가 세상에 적응하는 중요한 방법들을 배웠음을 드러내기도 했다. 당시 DALL-E가 만든 아보카도 안락의자 이미지에는 아보카도와 의자의 기본적인 특징들이 모두 포함돼 있었다. 또한 DALL-E가 만든 ‘발레리나 치마를 입고 개를 산책시키는 무’는 허리에 발레리나 치마를 입고 손에 개 목줄을 잡고 있는 무의 모습을 보여줬다.

6일 오픈AI는 DALL-E의 후속작 ‘DALL-E 2’를 발표했다. DALL-E 2는 기존 버전보다 훨씬 품질이 뛰어난 이미지를 생성하며, 사용법도 더 간단하고, 오리지널 버전과는 달리 나중에 문제점 개선 작업을 거친 후에 일반 대중에게도 공개될 예정이다. 놀라운 성능을 보이는 DALL-E 2는 우리가 AI라는 개념을 검토하고 AI에 대해 다시 새로운 정의를 내리게 만들지도 모른다.

미국 시애틀에 위치한 ‘앨런 인공지능 연구소(Allen Institute for Artificial Intelligence, 이하 ‘AI2’)’의 최고경영자 오렌 에치오니(Oren Etzioni)는 “DALL-E 2와 DALL-E의 차이는 마치 GPT-3와 GPT-2의 차이를 떠올리게 한다”고 밝혔다. GPT-3오픈AI가 개발한 인공지능이다.

채워진, 인형, 장난감이(가) 표시된 사진

자동 생성된 설명
“’매드 사이언티스트’처럼 스팀펑크 분위기로 반짝이는 화학물질을 조합하는 테디 베어들” / “모자를 쓰고 난로 옆에 옹기종기 모여 있는 쥐 가족을 담은 마이크로 35mm 필름 사진”

DALL-E 같은 이미지 생성 AI들은 지난 몇 년 동안 크게 발전했다. 2020년 AI2는 ‘세 사람이 소파에서 비디오 게임을 한다’ 같은 메시지를 입력하면 메시지에 맞춰서 이미지를 생성할 수 있는 신경망을 발표했다. AI가 생성한 이미지는 왜곡이 심했고 흐릿했지만 무엇을 보여주고 있는지 식별할 수 있는 정도였다. 지난해 중국의 기술 대기업 바이두(Baidu)는 ‘ERNIE-ViLG’라는 이름의 AI 모델을 이용해 DALL-E가 생성한 이미지보다 개선된 이미지를 생성하는 데 성공했다.

DALL-E 2는 그보다 더 발전된 모습을 보여준다. DALL-E 2가 생성하는 이미지들은 깜짝 놀랄 정도로 훌륭하다. DALL-E 2에 말을 탄 우주비행사 이미지, 테디베어 과학자 이미지, 베르메르(페르메이르) 스타일로 그려진 해달 이미지를 요청해 얻은 결과물들은 거의 ‘포토리얼리즘(photorealism)’에 가까운 놀라운 품질을 자랑한다. 오픈AI가 대중에게 공개한 이미지나(아래 사진 참조) 4월 첫 주에 DALL-E 2를 시연하며 내게 보여줬던 이미지들은 좋은 결과물만 선별한 이미지들일 것이다. 그렇다고 해도 이미지의 품질은 놀라운 수준이다.

오픈AI의 공동 설립자이자 수석과학자인 일리야 수츠케버(Ilya Sutskever)는 “가끔 DALL-E 2는 내 숨이 막힐 정도로 아름다운 이미지를 생성한다”고 표현했다.

DALL-E 2가 이렇게 놀라운 성능을 보일 수 있는 것은 DALL-E의 기존 버전을 개선하지 않고 완전히 다시 설계한 덕분이다. DALL-E의 기존 버전은 GPT-3의 확장판에 가까웠다. 여러 면에서 GPT-3는 과한 성능을 가진 자동완성 AI에 가깝다. 단어나 문장 몇 개를 제시하면 그 뒤에 이어질 단어 수백 개를 예측해서 스스로 뒷부분을 채우는 식이기 때문이다. DALL-E도 대체로 비슷한 방식을 사용했다. 단지 단어를 픽셀로 바꿨을 뿐이었다. DALL-E는 텍스트로 된 메시지가 입력되면 다음에 올 가능성이 가장 큰 것으로 예측되는 픽셀을 채우는 방식으로 텍스트를 ‘완성’해서 이미지를 생성했다.

그러나 DALL-E 2는 GPT-3를 기반으로 하지 않는다. DALL-E 2의 원리를 살펴보면 크게 두 단계로 나눌 수 있다. 첫 번째 단계에서 DALL-E 2는 글로 작성된 설명을 이미지와 짝지을 수 있는 오픈AI의 언어모델 ‘CLIP’을 사용해서 입력된 텍스트 내용에 부합하려면 포함돼야 할 핵심적인 특징들을 담아낸 중간 형태로 텍스트를 변환한다. 그런 다음 두 번째 단계는 DALL-E 2가 ‘확산모델(diffusion model)’이라는 신경망을 이용해 CLIP을 만족시키는 이미지를 생성하는 것이다.

확산모델은 무작위로 선택된 픽셀들로 이루어진 완전히 왜곡된 이미지를 이용해 학습한다. 이렇게 왜곡된 이미지를 원래 형태로 되돌리는 방법을 배우는 것이다. DALL-E 2에는 참조할 수 있는 원본 이미지가 없다. 따라서 확산모델은 임의의 픽셀을 골라서 왜곡된 이미지를 만들고 CLIP의 도움을 받으며 그 이미지를 완전히 새로운 이미지로 전환한다. 입력된 텍스트에 부합하도록 처음부터 완전히 새로운 이미지를 만드는 것이다.

확산모델을 이용해 DALL-E 2는 DALL-E보다 빠른 속도로 고해상도 이미지를 만들 수 있게 되었다. 오픈AI의 아디티야 라메시(Aditya Ramesh)는 “확산모델을 사용한 덕분에 DALL-E 2는 훨씬 실용적이고 재미있는 기능을 갖출 수 있었다”고 설명했다.

DALL-E 2 성능을 보여주는 시연에서 라메시와 그의 동료들은 내게 ‘계산기를 사용하는 고슴도치’, ‘체스를 두는 웰시 코기와 판다’, ‘나폴레옹처럼 옷을 입고 치즈 조각을 들고 있는 고양이’ 같은 그림들을 보여줬다. 내가 그림 주제들이 특이하다고 언급하자 그는 “어떤 텍스트를 입력할지 고민하면서 하루를 다 보내기도 한다”고 말했다.

텍스트이(가) 표시된 사진

자동 생성된 설명
“요하네스 페르메이르의 ‘진주 귀걸이를 한 소녀’ 스타일의 해달” / “존 제임스 오듀본(John James Audubon) 스타일로 그린 야생의 따오기”

물론 DALL-E 2가 여전히 실수를 하는 일도 있다. 예를 들어 “파란 정육면체 위에 놓인 빨간 정육면체”처럼 둘 이상의 대상을 둘 이상의 속성과 결합하라고 요청하면 결과물 생성을 힘들어할 것이다. 오픈AI는 이것이 CLIP이 항상 속성과 대상을 정확하게 연결하는 것은 아니기 때문이라고 생각한다.

텍스트 메시지에 따라 새로운 이미지를 생성하는 것뿐만 아니라 DALL-E 2는 기존 이미지를 다양하게 변형한 이미지를 만들어낼 수도 있다. 라메시가 자신의 아파트 앞 길거리에서 찍은 사진을 DALL-E 2에 연결하면 DALL-E 2는 즉시 다양한 화풍으로 해당 사진을 변형한 이미지들을 생성하기 시작한다. 이런 방식으로 새로 생성된 이미지 각각을 변형해서 또 다른 이미지들을 만들 수도 있다. 라메시는 “이러한 피드백 루프(feedback loop)는 디자이너들에게 매우 유용할 수 있다”고 설명했다.

초기 이용자 중 한 명인 예술가 홀리 헌든(Holly Herndon)은 DALL-E 2를 사용해서 벽 크기의 작품을 만들고 있다고 말했다. 그녀는 “나는 조각을 이어서 만든 태피스트리처럼 조각을 모아서 거대한 예술작품을 만들 수 있다. 마치 새로운 표현 수단을 활용해서 일하고 있는 듯한 기분”이라고 설명했다.

사용자 주의

오픈AI는 GPT-3 때와 마찬가지로 신뢰할 수 있는 소규모 이용자에게 DALL-E 2를 선공개한 이후에 개선 작업을 거쳐 일반 대중에게 공개할 계획이다. (DALL-E 2를 이용하고 싶으면 여기에서 등록할 수 있다.)

GPT-3는 공격적이거나 유해한 텍스트를 생성하는 문제가 있었다. 그래서 오픈AI는 GPT-3 이용자들로부터 피드백을 받아서 더 안전한 버전인 ‘인스트럭트GPT(InstructGPT)’를 만든 바 있다. 오픈AI는 DALL-E 2에서도 비슷한 방식을 사용하고자 한다. 이용자 피드백을 활용해서 제품을 개선하는 것이다. 오픈AI는 초기 이용자들에게 다양한 방식을 이용해 DALL-E 2가 공격적이거나 유해한 이미지를 생성하게 만들어 보라고 권장할 것이다. 그런 방식을 통해 발견된 문제들을 모두 해결하고 나면 오픈AI는 DALL-E 2를 더 많은 사람들에게 공개할 예정이다.

오픈AI는 DALL-E 2에 관한 이용자 정책도 발표하고 있다. 그중에는 AI에 폭력적이거나 선정적인 이미지, 또는 정치적인 이미지 생성을 요청하지 못하게 하는 내용도 포함돼 있다. 딥페이크(deep fake) 사용을 방지하기 위해 이용자들은 DALL-E에 실제 사람의 이미지를 생성하라고 요청해서도 안 된다.

개, 실내이(가) 표시된 사진

자동 생성된 설명
“털실로 짜서 만든 몬스터처럼 생긴 수프 그릇” / “베레모를 쓰고 검은색 터틀넥을 입은 시바견”

이용자 정책뿐만 아니라 오픈AI는 DALL-E 2의 학습 데이터에서 적나라한 폭력을 보여주는 이미지를 비롯해 특정 이미지들을 제거했다. 오픈AI는 플랫폼에서 생성되는 모든 이미지를 검토할 사람도 고용할 것이라고 밝혔다.

오픈AI의 프라풀라 다리왈(Prafulla Dhariwal)은 “현재 우리의 목표는 DALL-E 2를 대중에게 공개하기 전에 시스템을 개선할 수 있도록 많은 피드백을 받는 것이다. 나중에 DALL-E 2가 대중에게 공개된 이후에 개발자들이 이 제품을 바탕으로 다양한 앱을 만들 수 있게 되기를 바란다”고 설명했다.

창조적 지능

언어나 시각 같은 여러 방식으로 세상을 보고 개념을 다룰 수 있는 ‘다기능(multiskilled) AI’는 조금 더 범용적인 지능 개발로 향하는 한 걸음이다. DALL-E 2는 지금까지 발표된 다기능 AI 중에서 가장 좋은 사례를 보여준다.

그러나 에치오니는 DALL-E 2가 생성한 이미지에 감명을 받으면서도 이것이 AI의 전체적인 발전 과정에서 의미하는 바에 관해서는 신중한 태도를 보인다. 그는 “이 정도의 성능 향상으로는 인공일반지능(artificial general intelligence, 이하 ‘AGI’)에 조금이라도 가까워졌다고 할 수 없다. 우리는 이미 AI가 딥러닝(deep learning)을 활용해서 특정 과제를 해결하는 작업에는 상당히 능하다는 것을 알고 있다. 그러나 AI가 해결할 수 있는 그런 과제를 구상하고 명령을 내리는 것은 여전히 인간”이라고 설명했다.

애틀랜타에 있는 조지아 공과대학교에서 AI를 연구하는 마크 리들(Mark Riedl)은 지능을 측정하는 기준으로 ‘창의력’을 꼽는다. 기계가 대화를 통해 인간을 속여야 하는 ‘튜링 테스트(Turing test)’와 달리 리들이 고안한 ‘러브레이스(Lovelace) 2.0 테스트’는 ‘화성에서 우주복을 입은 펭귄 그림’처럼 무언가를 만들어 달라는 요청에 기계가 보이는 반응에 따라 기계의 지능을 판단한다.

DALL-E는 이 테스트에서 좋은 점수를 받았다. 그러나 지능은 상황에 따라 달라진다. 우리가 더 나은 기계를 만들면 지능을 측정하는 테스트도 그에 따라 개선돼야 한다. 예를 들어 많은 챗봇(chatbot)들은 이제 인간의 대화를 흉내 내는 데 능숙하기 때문에 좁은 의미에서 튜링 테스트를 통과할 수 있다. 그렇지만 그런 챗봇들은 여전히 사고할 수 있는 능력이 없다.

그러나 리들은 우리가 생각하는 ‘창조’와 ‘이해’의 의미도 변화한다고 말했다. 그는 “이런 표현들은 정의가 불분명하고 논의해야 할 대상”이라고 설명했다. 예를 들어 꿀벌은 ‘노란색’에 반응해서 행동하므로 노란색의 의미를 이해한다고 할 수 있다. 리들은 “우리가 ‘이해’를 ‘인간의 이해’로 정의하면 AI 시스템은 여전히 그에 전혀 미치지 못한다”고 말했다.

그러면서 그는 “하지만 나는 이렇게 예술작품을 생성할 수 있는 시스템이 인간의 이해와 겹치는 어떤 기본적인 ‘이해’ 능력을 갖추고 있다고 주장하고 싶다. 이런 AI들은 발레리나 치마를 입은 무 이미지를 생성할 때 인간이 생각하는 것과 같은 위치에 치마를 입힐 수 있었다”고 말했다.

꿀벌과 마찬가지로 DALL-E 2도 주어진 정보에 따라 인간의 기대에 충족하는 이미지를 생성한다. 리들이 말한 바와 같이 DALL-E같은 AI들은 ‘이해’나 ‘창조’ 같은 말의 의미를 어떻게 정의해야 할지 생각하게 한다.

오픈 AI는 입장을 분명히 했다. 다리왈은 “우리의 목표는 AGI를 만드는 것”이라고 밝혔다. 그러면서 “시각과 언어를 연결하는 DALL-E 2 같은 모델을 만드는 것은 기계에 인간처럼 세상을 인식하는 방법을 가르치고 이를 통해 결국에는 AGI를 개발하겠다는 우리의 더 큰 목표를 달성하기 위한 중요한 단계”라고 설명했다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.