Meta’s new AI can turn text prompts into videos

텍스트를 입력하면 영상을 생성하는 메타의 새 AI

텍스트에서 이미지를 생성하는 AI를 뛰어넘어서 이제 영상을 생성하는 AI가 등장했다. 그러나 이 AI 모델은 몇 가지 윤리적 의문을 제기한다.

지난 9월 29일 메타(Meta, 구 페이스북)가 텍스트 명령어를 입력하면 짧은 영상을 생성하는 인공지능(AI) 시스템을 공개했다.

‘메이크어비디오(Make-A-Video)’라는 이름의 이번 AI는 ‘빨간 망토가 달린 슈퍼히어로 복장을 하고 하늘을 날고 있는 개’ 같은 텍스트가 입력되면 5초짜리 짧은 클립을 생성한다. 영상은 텍스트를 꽤 충실하게 재현하지만 약간 몽롱해 보이는 옛날 홈비디오 같은 느낌을 준다.

결과물이 다소 조잡해 보이기는 하지만 이번 AI 시스템은 다음에 등장할 생성형 AI의 모습을 미리 엿볼 기회를 제공했다. 텍스트로 영상을 생성하는 AI는 올해 큰 흥분을 불러일으켜 온 ‘텍스트로 이미지를 생성’하는 AI의 다음 단계가 될 것이 분명하다.

메타는 메이크어비디오를 아직 대중에게 공개하지 않았다. 그러나 이번 발표는 다른 AI 연구소들도 자체적인 ‘영상 생성’ AI를 발표하도록 자극할 것으로 보인다. 이 AI는 또한 몇 가지 커다란 윤리적 의문을 제기한다.

지난 한 달 동안 AI 연구소 오픈AI(OpenAI)는 가장 최근에 발표한 ‘텍스트투이미지(text-to-image)’ AI 시스템 DALL-E를 모두에게 공개했고 AI 스타트업 스태빌리티.AI(Stability.AI)는 오픈소스 이미지 생성 시스템 ‘스테이블 디퓨전(Stable Diffusion)’을 출시했다.

그러나 텍스트 입력을 바탕으로 영상을 생성하는 ‘텍스트투비디오(text-to-video)’ AI는 이미지 생성 AI보다 훨씬 더 큰 과제를 안고 있다. 우선 영상 생성 AI들은 엄청난 컴퓨터 성능을 필요로 한다. 짧은 영상 하나를 만들려고 해도 수백 개의 이미지가 필요하기 때문에 이러한 영상 생성 AI는 학습시키는 데 수백만 개의 이미지가 사용되는 대형 이미지 생성 AI 모델보다도 훨씬 규모가 클 수밖에 없다. 이 점을 볼 때 가까운 미래에 이러한 영상 생성 AI 시스템을 구축할 여유가 있는 것은 실제로 기술 대기업뿐일 것이다. 영상 생성 AI는 학습시키는 것도 더 까다롭다. 텍스트와 짝지을 수 있는 고품질 영상으로 구성된 대규모 데이터 세트가 없기 때문이다.

이를 해결하기 위해 메타는 세 종류의 오픈소스 이미지 및 영상 데이터 세트를 결합하여 모델을 학습시켰다. 우선 설명이 달린 스틸이미지로 구성된 텍스트-이미지 데이터 세트를 이용해서 AI가 사물의 명칭과 생김새를 학습하게 했다. 그리고 영상 데이터베이스를 바탕으로 사물들이 실제 세상에서 어떻게 움직여야 하는지 학습시켰다. 두 가지 접근법을 결합한 방식을 통해 메이크어비디오는 텍스트 입력을 기반으로 영상을 생성할 수 있게 되었다. 메이크어비디오에 대한 설명은 9월 29일 발표된 논문에 자세히 나와 있다. 이 논문은 아직 동료평가를 거치지 않았다.

앨런 인공지능 연구소(Allen Institute for Artificial Intelligence)의 컴퓨터 비전 연구 과학자 탄마이 굽타(Tanmay Gupta)는 메타의 연구 결과가 유망하다며 기대감을 드러냈다. 메타가 공유한 영상은 AI 모델이 카메라 회전에 따라 삼차원 형태를 포착할 수 있음을 보여준다. AI 모델은 또한 깊이 개념과 조명에 대한 이해도 가지고 있는 것으로 보인다. 굽타는 일부 세부 사항과 움직임이 꽤 적절하고 설득력 있게 표현됐다고 말했다.

“폭우 속에서 함께 걸어가는 젊은 연인”

그러나 그는 “이런 시스템이 영상 편집과 전문적인 콘텐츠 제작에 사용되려면 아직 개선해야 할 부분이 상당히 많다”고 덧붙였다. 특히 아직 사물 간의 복잡한 상호작용을 모델링하는 것은 어려운 일이다.

‘화가의 붓이 캔버스에 그림을 그리고 있다’라는 텍스트 명령에 따라 생성된 영상을 보면 붓이 캔버스 위로 움직이지만 캔버스 위에 그려지는 선은 사실적이지 않다. 굽타는 “이 모델이 ‘남자가 책장에서 책을 꺼내 들고, 안경을 쓰고, 커피 한 잔을 마시며 책을 읽기 위해 자리에 앉는다’ 같은 일련의 상호작용을 영상으로 생성하는 데 성공하는 모습을 보고 싶다”고 말했다.

“화가의 붓이 캔버스에 그림을 그리고 있다”

메타는 이번 기술이 “창작자와 예술가들에게 새로운 기회를 열어줄 수 있다”고 약속한다. 그러나 기술이 발전하면 이러한 모델이 잘못된 정보와 ‘딥페이크(deepfake)’를 제작하고 확산시키는 강력한 도구로 활용될 수 있다는 우려도 있다. 그럴 경우에는 온라인에서 실제와 가짜 콘텐츠를 구별하는 것이 훨씬 더 어려워질 수 있다.

합성 매체 전문가 헨리 아이더(Henry Ajder)는 메타의 모델이 기술적으로나 창의적으로나 그리고 “스틸이미지와는 대조적으로 영상을 통해서만 초래될 수 있는 해악이라는 측면”에서 생성형 AI의 위험성을 증가시킨다고 말했다.

굽타는 “그래도 지금은 ‘사실과 다르지만 사람들이 믿을 수도 있는 콘텐츠’를 제작하려면 약간의 노력이 필요하다”며 “미래에는 키보드 입력 몇 번으로도 오해의 소지가 있는 콘텐츠를 만들 수 있게 될지도 모른다”고 우려를 표했다.

메이크어비디오를 만든 연구자들은 불쾌한 이미지와 단어를 필터링했다. 그러나 셀 수 없이 많은 단어와 이미지로 구성된 데이터 세트에서 편향과 유해한 콘텐츠를 완전히 제거하는 것은 불가능에 가깝다.

메타의 대변인은 아직 이번 모델을 대중에게 공개할 계획이 없으며 “연구의 일환으로 잠재적인 위험성을 개선하고 완화시킬 방법을 계속해서 모색할 것”이라고 밝혔다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.