

2023년 10대 미래 기술
본 기사는 MIT 테크놀로지 리뷰의 2023년 10대 미래 기술로 선정된 ‘이미지 생성 AI’의 시리즈 기사입니다.
오픈AI(OpenAI)가 무언가 대단한 일을 해낸 것이 분명했다. 2021년 말 오픈AI의 소규모 연구팀은 회사의 샌프란시스코 본사 사무실에서 어떤 아이디어를 실험해 보고 있었다. 이들은 자사의 ‘텍스트-이미지(text-to-image)’ 모델 ‘DALL-E’의 새로운 버전을 제작한 상황이었다. DALL-E는 이를테면 ‘반 고흐(Van Gogh)가 그린 여우 한 마리’, ‘피자로 만든 강아지’ 같은 짧은 텍스트를 입력하면 이를 이미지로 변환하여 생성하는 AI 모델이다. 이제 연구팀은 DALL-E의 새 버전으로 무엇을 할 수 있을지 알아내야 했다.
오픈AI의 공동 설립자이자 CEO 샘 올트먼(Sam Altman)은 MIT 테크놀로지 리뷰에 “거의 항상 우리는 무언가를 새로 제작하면 한동안 직원 모두가 그 제품을 사용해야 한다”며 “그 과정에서 해당 제품이 어떤 제품이 될지, 어떤 용도로 사용될지 파악하려고 한다”라고 설명했다.
이번에는 다른 때와 달랐다. DALL-E의 새 버전을 조작해 보던 연구원들은 이번 모델이 무언가 특별하다는 사실을 깨달았다. 올트먼은 “우리가 대단한 무엇을 만들어낸 것이 분명했다. DALL-E 2는 우리가 바라던 바로 그 제품이었다. 논쟁이 필요 없었고 회의조차 연 적이 없다”라고 밝혔다.
그러나 올트먼과 DALL-E 연구팀의 그 누구도 DALL-E 2가 가져올 엄청난 파급력을 예측할 수 없었을 것이다. 올트먼은 “DALL-E 2는 대중의 관심을 사로잡은 첫 번째 AI 기술”이라고 설명했다.
DALL-E 2는 2022년 4월에 공개됐다. 5월에 구글은 두 가지의 텍스트-이미지(text-to-image) 모델 ‘이매젠(Imagen)’과 ‘파티(Parti)’를 발표했으나 공개하지는 않았다. 그 이후, 예술가를 위한 이미지를 생성하는 ‘미드저니(Midjourney)’가 출시됐다. 8월에는 영국 기반의 스타트업 스태빌리티AI(Stability AI)가 오픈소스 모델 ‘스테이블 디퓨전(Stable Diffusion)’을 대중에게 무료로 공개했다.
이러한 이미지 생성 모델의 열풍은 상당히 거셌다. 오픈AI는 제품 출시 두 달 반 만에 이용자 백만 명을 확보했다. 그리고 유료 서비스 드림 스튜디오(Dream Studio)를 통해 스테이블 디퓨전을 사용하는 이용자 수는 그 두 달 반의 절반도 채 되지 않는 기간 만에 백만 명을 넘어섰다. 다른 곳에서 개발한 앱을 통해서 또는 무료 버전을 자신들의 컴퓨터에 직접 설치해서 스테이블 디퓨전을 사용하는 이용자 수는 그보다 훨씬 더 많았다. (스태빌리티 AI의 설립자 에마드 모스타크(Emad Mostaque)는 이용자 수 10억 명 달성을 목표로 하고 있다고 말한 바 있다.)
그러고 10월에 2라운드가 시작됐다. 구글과 메타(Meta)를 비롯한 여러 기업들이 영상을 생성하는 ‘텍스트-비디오(text-to-video)’ 모델을 쏟아내기 시작했다. 정지 이미지를 생성하는 대신에 이러한 모델들은 짧은 영상 클립, 애니메이션, 3D 이미지를 생성할 수 있다.
AI의 발전 속도는 놀라울 정도였다. 고작 몇 달 만에 이러한 ‘생성형 AI(generative AI)’ 또는 ‘생성 모델’ 관련 기술은 수많은 뉴스들의 헤드라인과 잡지들의 표지를 장식했고, 소셜 미디어의 포스팅에는 이와 관련된 밈(meme)으로 가득했다. 생성 모델에 관한 엄청난 과장된 예측들도 쏟아져 나왔다. 그리고 결국에는 이에 대한 격렬한 반발까지 초래됐다.
킹스칼리지 런던(King’s College London)에서 ‘컴퓨터의 창작성(computational creativity)’을 연구하는 마이크 쿡(Mike Cook)은 “생성형 AI 기술이 가져온 충격과 경외심은 놀라울 정도였고 재미있기도 했다. 이 기술은 새로운 기술이 가져야 할 바람직한 모습을 보여준다”라고 언급하며, “하지만 기술이 너무 빠르게 발전하면서 생성 모델이라는 개념에 익숙해지기도 전에 이 기술에 대한 사람들의 첫인상이 계속해서 바뀌고 있다. 이제 사회 전체에서 생성 모델이라는 개념을 소화하기 위한 약간의 시간을 가질 것이라고 생각한다”고 밝혔다.
이런 상황에서 예술가들은 가장 큰 격변의 한 가운데에 놓이게 되었다. AI로 인해 일부 예술가들은 작업 기회를 잃게 되겠지만, 새로운 기회를 포착하는 이들도 있을 것이다. 소수의 예술가들은 자신들을 대체할 수 있는 생성 모델 학습에 부적절한 이미지 남용이 있었다며 이에 대한 법적 다툼을 위해 법원으로 향하기도 한다.
캘리포니아에서 드림웍스(DreamWorks) 등 시각효과 스튜디오에서 경력을 쌓은 디지털 아티스트 돈 앨런 스티븐슨 3세(Don Allen Stevenson III)는 창작자들이 무방비로 허를 찔렸다고 지적했다. 그는 “나처럼 기술적인 훈련을 받은 창작자들에게 생성 모델은 대단히 두려운 존재”라며 “우리가 하던 일을 완전히 대체할 것처럼 보이기 때문”이라고 밝혔다. 그러면서 “나는 DALL-E를 처음 사용했을 때 존재론적 위기를 느꼈다”라고 덧붙였다.
그러나 일부 창작자들이 여전히 충격에서 벗어나지 못한 채 휘청대고 있는 상황에서 스티븐슨을 포함한 다수의 창작자들은 이러한 AI 도구를 이용해 작업하고 다음 상황을 예측할 방법을 찾고 있다.
여기서 흥미진진한 부분은 우리가 정말로 아는 바가 없다는 사실이다. 처음에는 엔터테인먼트 미디어에서 패션, 건축, 마케팅에 이르기까지 다양한 창작 산업이 생성 모델의 영향력을 느끼겠지만, 결국 이 기술은 모두에게 ‘엄청난 창작성’을 부여할 것이다. 더 장기적으로 이 기술은 새로운 유형의 신약에서 의상과 건물에 이르기까지 거의 모든 것의 설계에 사용될 수 있다. ‘생성 혁명’은 이제 막 시작되었다.
마법 같은 혁명
비디오게임과 TV 쇼 분야에서 활동하는 디지털 창작자 채드 넬슨(Chad Nelson)은 텍스트-이미지 모델을 일생에 한 번뿐인 기회라고 생각한다. 넬슨은 “이 기술을 이용하면 머릿속에 떠오른 아이디어를 몇 초 만에 스케치할 수 있다”라며 “혁신적인 속도로 창조와 탐색이 가능하다. 지난 30년 동안 내가 경험한 모든 것을 뛰어넘는다”라고 감탄했다.
생성 모델 기술이 처음 공개되고 몇 주 만에 사람들은 잡지 일러스트와 마케팅 아이디어부터 비디오게임 배경과 영화 콘셉트에 이르기까지 모든 것의 초안을 만들거나 브레인스토밍하는 데 생성 모델을 활용하게 되었다. 수많은 팬아트와 심지어 전체 만화책을 생성해서 공유하는 사람들도 있었다. 올트먼은 DALL-E를 사용해서 스니커즈 디자인을 생성했고, 그가 트위터에 공개한 스니커즈 이미지를 보고 어떤 사람이 실제로 해당 스니커즈를 제작하기도 했다.
퀸메리 런던대학교(Queen Mary University of London)의 컴퓨터 과학자이자 타투 아티스트 에이미 스미스(Amy Smith)는 DALL-E를 사용해서 타투 모양을 디자인한다. 스미스는 “고객과 함께 앉아서 디자인을 생성할 수 있다”라며 “우리는 미디어 생성의 혁명을 경험하고 있다”라고 표현했다.
캘리포니아에서 활동하는 디지털 및 영상 아티스트 폴 트릴로(Paul Trillo)는 생성형 AI 기술이 시각효과를 위한 아이디어를 더 쉽고 빠르게 브레인스토밍하는 데 도움을 줄 것이라고 생각한다. 트릴로는 “사람들은 생성 모델 활용이 이펙트 아티스트의 종말 또는 패션 디자이너의 종말이라고 말하고 있다”라며 “하지만 나는 그렇게 생각하지 않는다. 내가 보기에 현 상황은 우리가 이제 밤이나 주말까지 일할 필요가 없어졌음을 의미한다”라고 말했다.
스톡 이미지(stock image) 업체들은 각기 다른 입장을 취하고 있다. 게티(Getty)는 AI 생성 이미지를 금지했으나 셔터스톡(Shutterstock)은 오픈AI와 계약을 맺고 웹사이트에 DALL-E를 추가했으며, 생성 모델 학습에 작품이 사용된 창작자들에게 보상하기 위한 기금 모집을 시작할 예정이라고 발표했다.
스티븐슨은 캐릭터와 배경 디자인 등 애니메이션 스튜디오에서 영화를 제작할 때 필요한 과정의 모든 단계에서 DALL-E를 사용해 봤다고 밝혔다. 그는 DALL-E를 이용해서 고작 몇 분 만에 여러 부서에서 해야 할 모든 작업을 해낼 수 있었다. 스티븐슨은 “DALL-E는 비용이나 기술 부족 문제로 창작 활동을 시도하지 못했던 모든 사람들에게 희망을 준다”라며 “하지만 변화에 마음이 열려 있지 않다면 기술이 조금 무섭게 느껴질 수도 있다”라고 경고했다.
넬슨은 생성 모델과 관련해서 앞으로 더 많은 일이 일어나리라고 생각한다. 그는 나중에는 이 기술을 미디어 대기업뿐만 아니라 건축 회사나 디자인 회사에서도 받아들일 것으로 예측한다. 이에 대해 그는 “하지만 아직은 준비가 되지 않았다”라고 말했다.
넬슨은 “지금은 우리가 마치 작은 마법 상자와 마법사를 가지고 있는 것 같다”라고 말했다. 계속해서 이미지를 생성하고 싶다면 이것만으로도 충분하겠지만, 창작을 위한 조력자가 필요하다면 아직은 부족하다. 그는 “생성 모델로 이야기를 만들고 세상을 창조하려면, 내가 무엇을 만들고 있는지에 대한 생성 모델의 인식을 훨씬 더 높여야 한다”라고 설명했다. 바로 여기에 문제가 있다. 즉 이러한 생성 모델은 여전히 자신들이 무엇을 하고 있는지 알지 못한다.
Eric Carter가 DALL-E 2로 제작.
블랙박스의 내부
그 이유를 알고 싶다면 이러한 생성형 AI 프로그램의 작동 원리를 살펴보아야 한다. 외부에서 보면 생성 모델은 ‘블랙박스’와 같다. 이용자가 짧은 명령어, 즉 프롬프트(prompt)를 입력하고 몇 초 기다리면 프롬프트에 알맞은 이미지가 몇 개 생성된다. 이용자가 생각하는 이미지에 더 가까운 이미지 결과물을 생성하거나 AI 생성 모델이 뜻밖의 흥미로운 이미지 결과물을 내놓게 하고 싶다면 프롬프트에 넣는 텍스트를 수정해야 할 수도 있다. 이렇게 프롬프트를 수정하는 작업을 ‘프롬프트 엔지니어링(prompt engineering)’이라고 부른다.
가장 상세하고 양식화된 이미지를 얻기 위한 프롬프트는 몇백 단어로 이루어질 수도 있다. 원하는 결과를 얻기 위해 프롬프트에 사용할 적절한 단어 찾기는 이제 중요한 능력이 되었다. 바람직한 결과를 생성하는 프롬프트를 판매하고 구매하는 온라인 시장도 등장했다.
프롬프트에는 AI 모델이 특정 화풍에 따라 이미지를 생성하도록 지시하는 표현을 포함시킬 수 있다. 예를 들어 ‘아트 스테이션에서 유행하는 화풍’이라고 입력하면 AI는 아트 스테이션(ArtStation: 수천 명의 예술가들이 자신들이 작품을 선보이는 웹사이트)에서 인기 있는 이미지의 화풍을 (대체로 매우 상세하게) 모방한다. 또한 ‘언리얼 엔진(Unreal Engine)’이라고 입력하면 특정 비디오게임에서 익숙한 그래픽을 떠올리게 하는 이미지가 생성된다. 이용자들은 심지어 특정 예술가의 이름을 입력해서 AI가 그들의 작품을 모방하게 할 수도 있다. 일부 예술가들은 이 기능에 대해서 매우 강한 불만을 품고 있다.

Eric Carter가 DALL-E 2로 제작.
그 내부를 들여다보면 텍스트-이미지 모델은 두 개의 신경망(neural network)으로 구성되어 있다. 하나는 이미지와 해당 이미지를 설명하는 텍스트를 연결하도록 학습한 신경망이고, 다른 하나는 아무런 사전 지식 없이 이미지를 생성하도록 학습한 신경망이다. 두 번째 신경망이 이미지를 생성하면 첫 번째 신경망이 해당 이미지가 프롬프트와 일치하는지 확인해서 승인하는 방식이다.
새로운 생성 모델은 이미지 생성 방식에서 큰 돌파구를 마련했다. DALL-E의 첫 번째 버전은 오픈AI의 언어 모델(language model) GPT-3에 사용된 기술을 확장해서 사용했다. 이를 통해 DALL-E는 문장의 단어를 구성하듯이 이미지의 다음 픽셀을 예측하는 방식으로 이미지를 생성한다. 이 방식은 효과적이었으나 뛰어난 결과물을 내놓지는 못했다. 올트먼은 “그건 마법 같은 경험이 아니었다”라며 “그 방식으로 작동을 했던 것이 놀랍다”라고 말했다.
이러한 방법 대신에 DALL-E 2는 ‘확산모델(diffusion model)’을 사용한다. 확산모델은 학습 과정에서 더해진 픽셀 노이즈를 제거하여 이미지를 정리하도록 학습한 신경망이다. 이 과정은 이미지를 가져와서 원래 이미지가 지워지고 임의로 배치된 픽셀만 남겨질 때까지 한 번에 픽셀을 조금씩 바꾸는 단계를 수없이 반복하면서 이루어진다. 독일 뮌헨대학교에서 생성 모델에 관해 연구하고 있으며 스테이블디퓨전에 사용된 확산모델 제작에 기여한 비외른 오머(Björn Ommer)는 “이 작업을 천 번 정도 반복하면 결국에는 텔레비전에서 안테나 케이블을 뽑아버렸을 때 나오는 노이즈 같은 이미지가 만들어진다”라고 설명했다.
그러고 나서 신경망은 그 과정을 되돌려서 주어진 이미지의 픽셀이 정리된 모습을 예측하도록 학습한다. 이러한 학습 과정을 거친 확산모델은 픽셀이 대량으로 주어지면 해당 픽셀들을 조금 더 깔끔하게 정리해서 무언가를 생성하려고 한다. 그렇게 정리된 픽셀을 다시 입력하면 확산모델은 픽셀을 더 정리해서 이미지를 생성한다. 이 과정을 충분히 반복하면 모델은 노이즈로 가득한 텔레비전 화면을 고해상도 이미지로 돌려놓을 수 있게 된다.
텍스트-이미지 모델에서는 이 과정을 확산모델이 생성하는 이미지를 프롬프트에 연결하려고 시도하는 언어 모델이 안내한다. 언어 모델의 안내에 따라 확산모델은 언어 모델이 ‘좋은 연결’이라고 간주하는 이미지를 생성한다.
그러나 모델이 아무런 학습 없이 텍스트와 이미지를 연결할 수는 없다. 오늘날 대부분의 텍스트 투 이미지 모델은 라이온(LAION)이라는 이름의 대규모 데이터 세트를 이용해서 학습하는데, 이 데이터 세트에는 인터넷에서 수집한 텍스트와 이미지 수십억 쌍이 포함되어 있다. 다시 말하면 텍스트-이미지 모델에서 얻은 이미지는 온라인에 나타난 편견(과 포르노)에 의해 왜곡된 세상의 모습을 정제한 결과물이라고 할 수 있다.
마지막으로 한 가지 더 주목해야 할 부분은 가장 인기 있는 두 모델 ‘DALL-E 2’와 ‘스테이블디퓨전’ 사이에 존재하는 작지만 매우 중대한 차이점이다. DALL-E 2의 확산모델은 축소하지 않은 풀사이즈 이미지를 사용하지만, 스테이블 디퓨전은 오머와 그의 동료들이 개발한 잠재 확산(latent diffusion)이라는 기술 덕분에 이미지의 필수적인 특징만 유지되어 있는 ‘잠재 공간(latent space)’에서 신경망 안에 암호화된 압축 이미지를 사용한다.
결과적으로 스테이블 디퓨전은 비교적 더 낮은 사양의 컴퓨터로도 구동이 가능하다. 오픈AI의 강력한 서버에서 구동되는 DALL-E 2와 달리 스테이블 디퓨전은 (좋은 사양의) 개인용 컴퓨터에서도 실행할 수 있다. 올해 일어난 ‘창작성의 폭발’과 새로운 앱의 급격한 발전의 상당 부분은 스테이블 디퓨전이 오픈소스(프로그래머들이 자유롭게 변경하고 이용하고 영리를 추구할 수 있음)이며 사람들이 가정에서 실행할 수 있을 정도로 가벼운 프로그램이라는 사실 덕분에 가능했다고 해도 과언이 아니다.
창작성에 대한 재정의
일부 사람들은 이러한 생성 모델이 ‘인공일반지능(artificial general intelligence, AGI)’으로 향하는 한 걸음이라고 생각한다. 인공일반지능이란 범용으로 사용될 수 있거나 심지어 인간과 같은 능력을 가진 미래의 AI를 의미한다. 오픈AI는 목표가 인공 일반 지능의 달성이라고 공개적으로 말해왔다. 올트먼은 DALL-E 2가 (일부는 무료로 공개된) 비슷한 생성 모델들과 경쟁 관계에 놓이는 것을 대수롭지 않게 여긴다. “우리는 이미지 생성기가 아니라 인공일반지능(AGI)을 개발하려고 한다”라며 “인공 일반 지능은 광범위한 제품 로드맵에 적합하지만, 이미지 생성은 인공일반지능이 할 수 있는 작업들 가운데 그저 작은 일부분”이라고 설명했다.
올트먼의 낙관적 관점에도 불구하고 많은 전문가들은 오늘날의 AI는 결코 인공 일반 지능 수준에는 다다르지 못할 것이라고 전망한다. 기본적 지능의 측면에서 텍스트-이미지 모델은 확산 모델을 보강하는 데 사용되는 언어 생성형 AI, 즉 언어 모델과 다를 바 없다. GPT-3나 구글의 PaLM 같은 언어 모델들은 학습에 사용한 수십억 개에 달하는 문서에서 가져온 텍스트 패턴을 단순히 반복할 뿐이다. 마찬가지로 DALL-E와 스테이블 디퓨전은 온라인에 존재하는 수십억 개 사례에서 발견한 텍스트와 이미지 사이의 연상을 재생산할 뿐이다.
이미지 생성 모델이 내놓는 결과물은 매우 놀랍지만 더 깊이 들여다보면 그 환상은 산산조각이 난다. 이러한 모델은 기본적인 실수를 한다. ‘강에 있는 연어’라는 텍스트를 입력했을 때 강 하류에 떠 있는 토막 난 손질된 연어 살덩이 그림을 보여주기도 하고, ‘야구장 위로 날아가는 박쥐(bat) 한 마리’라는 텍스트를 입력하면 날아가는 박쥐(bat)와 야구용 방망이(bat) 그림을 보여주기도 한다. 이는 이미지 생성 모델의 기반이 되는 기술의 방식이 인간들이(또는 심지어 대부분의 동물들이) 세상을 이해하는 방식에 전혀 근접하지 않기 때문이다.
그렇다고 해도 이러한 모델이 사람들의 눈을 속이는 더 나은 능력을 학습하는 것은 시간문제일지도 모른다. 쿡은 “사람들은 이미지 생성 모델이 지금은 그다지 대단하지 않다고 말하는데 실제로도 그렇다”라며 “하지만 수억 달러가 더 투입되면 성능은 훨씬 더 나아질 것”이라고 전망했다.
이는 오픈AI의 접근법이기도 하다.
올트먼은 “우리는 이미 이미지 생성 모델의 능력을 10배 정도 개선하는 법을 알고 있다”라며 “모델이 현재 제대로 처리하지 못하는 논리적 추론 과제가 있다는 점을 이미 알고 있으므로 현재의 문제점을 기록해두고 새로이 개발되는 버전에서는 그 문제들을 모두 해결할 예정”이라고 주장했다.
만약 지능과 이해에 대한 주장이 과장된 것이라면, 창의성은 어떨까? 우리는 창의적인 인물들의 전형으로서 예술가, 수학자, 사업가, 유치원 아동, 유치원 교사 등을 꼽는다. 그러나 이러한 사람들이 가진 공통점이 무엇인지 파악하기는 어렵다.
일부 사람들은 결과물을 가장 중요하게 생각한다. 그렇지만 다른 사람들은 어떤 작업을 해나가는 과정, 그런 과정에 의도가 있는지가 창작성에서 가장 중요한 부분이라고 말한다.
여전히 많은 이들은 영국 서식스 대학교(University of Sussex)의 AI 연구원이자 철학자 마거릿 보든(Margaret Boden)이 제시하는 창작성의 정의에 의존한다. 보든은 창작성의 주요 기준으로 세 가지를 언급했다. “창작적이려면 아이디어나 제품이 새롭고, 놀랍고, 가치 있어야 한다.”
이러한 기준을 뛰어넘어, 우리가 직접 보고 창작성을 깨닫게 되는 경우도 흔하다. 컴퓨터 창작성 분야의 연구자들은 자신들의 연구를 이렇게 설명한다. “인간이 단독으로 생산했을 때 창작적이라고 여겨질 수 있는 결과물을 컴퓨터를 사용하여 만드는 일을 한다”
따라서 스미스는 새로운 이미지 생성 모델이 가진 ‘어리석음’에도 불구하고 ‘창작적’이라고 평가하며 즐거워한다. 그녀는 “생성 모델이 만드는 이미지들에는 인간의 입력에 의해 제어되지 않는 어떤 혁신이 있음이 매우 분명하다”라며 “텍스트에서 이미지로의 전환은 때때로 놀랍고 아름다운 결과물을 만들어낸다”라고 설명했다.
호주 멜버른의 모내시대학(Monash University)에서 컴퓨터의 창작성을 연구하는 마리아 테레사 야노(Maria Teresa Llano)는 텍스트-이미지 모델이 창작성에 대한 기존의 정의를 확장하고 있다는 점에 동의한다. 그러나 야노는 이미지 생성 모델이 창작적이라고 생각하지 않는다. 그녀는 “이미지 생성 프로그램을 많이 사용하면 결과물이 반복되기 시작한다”라고 설명했다. 즉 이미지 생성 모델은 보든이 말하는 창작성 기준들 가운데 일부 또는 전부를 충족하지 못한다. 그리고 이 점이야말로 이미지 생성 기술이 가지는 근본적 한계일지도 모른다. 텍스트-이미지 모델은 이미 존재하는 수십억 개의 이미지들과 유사한 새로운 이미지를 대량으로 만들어낼 수 있도록 설계되어 있다. 아마도 머신러닝 모델은 과거에 노출된 적 있는 이미지를 모방한 이미지만을 생산할 것이다.
그렇지만 컴퓨터 그래픽 분야에서는 창작성 기준 결여가 문제가 되지 않을 수 있다. 어도비(Adobe)는 이미 텍스트-이미지 생성 기능을 포토샵(Photoshop)에 추가하고 있다. 포토샵과 비슷한 오픈소스 기반의 3D 컴퓨터 그래픽용 소프트웨어 블렌더(Blender)는 스테이블 디퓨전 플러그인을 지원하고 나섰다. 그리고 오픈AI는 마이크로소프트사와 협력하여 윈도우 오피스(Office)용 텍스트-이미지 위젯을 개발하고 있다.
생성 모델의 미래 버전이 실제로 영향을 주는 부분은 바로 이러한 상호작용일지도 모른다. 상호작용을 통해서 기계는 인간의 창작성을 대체하는 것이 아니라 강화한다. 야노는 “우리가 오늘날 목격하고 있는 창작성은 생성 모델 자체가 아닌 그 모델을 사용하는 과정에서 나타난다”라고 말했다. 즉 우리가 원하는 결과를 만들기 위해 이미지 생성 모델과 ‘주고받기’ 과정에서 창작성이 느껴진다는 의미이다.
컴퓨터의 창작성을 연구하는 다른 연구원들도 이런 관점을 공유한다. 창작성은 생성 모델 같은 기계가 무엇을 할 수 있느냐의 문제가 아니라 어떤 일을 어떻게 할 수 있느냐의 문제이다. 기계를 진정으로 창작적인 조력자로 바꾸려면 기계에 자율성과 창조에 대한 책임감을 더 부여해야 하며 창작뿐만 아니라 전문적인 식견으로 이미지들을 엄선할 수 있게 해야 한다.
실제로 이미지 생성용 AI의 책임성이 곧 논의될 것으로 보인다. 이미지를 분석해서 어떤 이미지와 유사한 이미지들을 생성할 수 있는 프롬프트를 만드는 ‘클립 인터로게이터(CLIP Interrogator)’라는 프로그램이 이미 나왔다. 머신러닝을 통하여 간단한 프롬프트에 이미지의 퀄리티와 정확성을 높이기 위한 표현을 추가하는 기능을 확장하려는 연구도 있다. 그렇지만 효과적으로 자동화된 프롬프트를 설계하기 위한 엔지니어링은 이제 시작된 지 고작 몇 달밖에 되지 않았다.
한편 이미지가 계속 쏟아져 나오면서 다른 변화도 일어나고 있다. 쿡은 “인터넷은 이제 계속해서 AI가 생성하는 이미지들로 오염되고 있다”라며 “2022년에 우리가 만든 이미지들은 앞으로 제작되는 이미지 생성 모델의 일부가 될 것”이라고 말했다.
생성 모델이 창작산업과 전체 AI 분야에 어떤 지속적 영향을 미칠지 정확히 파악하려면 더 지켜봐야 한다. 생성 모델은 표현을 위한 또 하나의 도구가 되었다. 올트먼은 핸드폰으로 개인적인 메시지를 보낼 때 이모티콘(emoji) 대신 AI가 생성한 이미지를 사용한다고 밝혔다. 그는 “어떤 친구들은 번거롭게 이미지를 생성하지도 않고, 그냥 프롬프트만을 입력하기도 한다”라고 덧붙였다.
그러나 텍스트-이미지(text-to-image) 모델은 그저 시작에 불과할지도 모른다. 결국에는 생성 모델이 새로운 건물부터 신약에 이르기까지 모든 설계에 사용될 가능성도 있다. 생성 모델이 텍스트 입력을 통해 무엇이든 만들어내는 것이다. 넬슨은 “사람들은 무언가를 하려고 할 때 기술이나 솜씨가 더는 장벽이 아님을 깨달을 것”이라며 “이제 모든 것은 상상력에 달려있다”라고 말했다.
컴퓨터는 이미 몇몇 산업계에서 방대한 양의 설계를 생성하려는 목적으로 사용되고 있다. 수많은 설계들이 생성된 이후 실제로 사용이 가능한 것들이 추려진다. 한편, ‘텍스트-엑스(text-to-X)’ 모델을 활용하면 인간 설계자는 그 이미지 생성 과정을 처음부터 미세 조정할 수 있을 것이다. 즉, 텍스트를 사용하여 컴퓨터가 단지 가능한 결과물들을 내놓는데 그치지 않고 바람직한 결과물을 내놓을 수 있도록 무한한 옵션들을 탐색하라고 지시할 수 있기 때문이다.
컴퓨터는 무한한 가능성으로 가득 찬 공간을 만들어낼 수 있다. 텍스트-엑스 모델을 이용하면 우리는 텍스트의 입력을 통해 그 공간을 탐색할 수 있다. 올트먼은 “나는 그것이 오픈AI가 만들어낸 컴퓨터 시스템(legacy)이라고 생각한다”라며 “이미지, 영상, 오디오 등 결국에는 모든 콘텐츠가 AI에 의해 생성될 수 있으며 모든 분야에 생성 모델의 사용이 서서히 확산될 것이라고 생각한다”라고 밝혔다.
DALL-E 2는 이용자가 입력하는 이미지 또는 텍스트를 프롬프트로 받아들인다.
해당 이미지는 DALL-E 2에 위의 이미지를 다시 프롬프트로 입력해서 생성되었다.
Eric Carter가 DALL-E 2로 제작.
*이 글을 쓴 Will Douglas Heaven은 MIT 테크놀로지 리뷰의 AI 담당 수석 에디터이다.