AI that makes images: 10 Breakthrough Technologies 2023

이미지 생성(Generative) AI

간단한 설명문으로 아름다운 이미지를 만들어내는 AI 모델이 영향력 있고 창의적이며 상업적인 도구로 진화하고 있다.
  • 주체: 오픈AI(Open AI), 스태빌리티AI(Stability AI), 미드저니(Midjourney), 구글(Google)
  • 시기: 현재

오픈AI는 2021년에 출시한 텍스트에서 이미지를 생성(text-to-image)하는 인공지능 모델 DALL-E를 통해 이상함과 놀라움이 혼합된 세계를 선보였다. DALL-E는 이용자가 짧은 설명 문구를 텍스트로 입력하기만 하면 몇 초 안에 원하는 이미지를 만들어 낸다. 2022년 4월에 공개된 DALL-E 2는 엄청난 발전을 보였다. 구글도 이마젠(Imagen)이라는 자체 이미지 생성 AI 시스템을 개발했다.


여러 가지의 이미지 생성용 인공지능 모델들 가운데 신의 한 수라고 부를만한 모델은 바로 스테이블 디퓨전(Stable Diffusion)이다. 8월에 영국의 스타트업 스태빌리티AI가 무료로 출시한 오픈소스 기반의 텍스트-이미지 모델 스테이블 디퓨전은 가장 아름다운 이미지를 생성할 수 있을 뿐만 아니라 가정용 컴퓨터에서도 충분히 실행되도록 설계되었다.


모두가 텍스트-이미지 모델을 사용할 수 있게 함으로써 스태빌리티AI는 이미 타오르고 있었던 독창성과 혁신의 불길에 기름을 부은 셈이다. 수백만 명의 사람들이 단 몇 달 만에 수천만 개의 이미지들을 만들었다. 하지만 이 또한 문제가 있었다. 예술가들은 10년 동안 일어난 가장 큰 격변 가운데 하나에 휘말리게 되었다. 그리고 언어 모델과 마찬가지로 텍스트-이미지 생성 모델 역시 인터넷에서 대량으로 긁어온 훈련용 데이터에 포함된 편향되고 독성 있는 콘텐츠와의 연관성을 증폭시킬 수 있다.


텍스트-이미지 생성 기술은 현재 포토샵과 같은 상용 소프트웨어에 내장되어 있다. 시각 효과 아티스트와 비디오 게임 스튜디오는 텍스트-이미지 생성 기술이 어떻게 개발 계획을 단축하게 할 수 있을지 모색하는 중이다. 텍스트로부터 이미지를 생성하는 기술은 이미 텍스트로 영상을 만드는 기술(text-to-video)로 발전했다. 지난 몇 달 동안 구글, 메타(Meta) 등이 시연한 AI로는 현재 몇 초 길이의 영상만을 생성할 수 있지만 점차 기능은 개선될 것이다. 언젠가는 스크립트를 컴퓨터에 입력하면 자동적으로 영화가 만들어질 수 있는 날이 올 것이다.


이미지 생성용 AI를 제외하고는 최고와 최악이라는 이유로 어떠한 AI 기술도 사람들의 주목을 받지 못했다. 앞으로 나아가 이러한 도구가 창조 산업과 전체 AI 분야에 어떠한 지속적인 영향을 미칠지 기대된다.


관련 기사 보기

AI의 창작성이 폭발하고 있다

AI 기반의 ‘생성 혁명’이 일어났다. 텍스트-이미지(text-to-image) 모델은 그저 시작에 불과할지도 모른다. ‘텍스트-엑스(text-to-X)’ 모델을 활용하면 수많은 산업계에서 방대한 양의 혁신이 가능해질 것이다.

기사 보기 →


미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.