Welcome to the new surreal. How AI-generated video is changing film.

독점 공개: 새로운 초현실 세계로, 영화를 바꾸고 있는 생성형 AI

새로운 초현실주의 세계에 온 것을 환영한다. 생성형 AI가 영화를 비롯한 광고, 영상 시장을 바꾸고 있다. 오픈AI의 DALL-E 2로 제작한 단편 영화 <더 프로스트>를 MIT 테크놀로지 리뷰에서 최초 공개한다.

영화 <더 프로스트(The Frost)>는 처음 몇 장면부터 기괴하고 불안한 분위기를 만들어낸다. 얼음으로 뒤덮인 거대한 산들, 임시 군용 막사 같은 모습의 야영지, 모닥불 주변에 옹기종기 모여 있는 사람들, 짖고 있는 개들. 모두 익숙한 요소들이지만 어딘가 기이해서 보고 있으면 점점 공포심이 싹튼다. 무언가 잘못된 것 같아 보인다.

처음 몇 장면이 지나가면 영화 속의 누군가가 “꼬리 좀 건네줘”라고 말한다. 그런 다음 장면이 전환되면서 모닥불가에서 육포 조각을 뜯어먹고 있는 어떤 남자의 모습이 화면을 채운다. 그런데 그 장면이 기괴하다. 남자의 입술이 이상하게 움직이고 있다. 마치 남자가 자신의 얼어붙은 혀를 씹고 있는 것처럼 보이기도 한다.

AI 영화 제작이라는 불안한 세계에 온 것을 환영한다. 영화 <더 프로스트>를 제작한 미국 디트로이트 소재 영상 제작 업체 웨이마크(Waymark)의 스티븐 파커(Stephen Parker)는 “우리는 사진처럼 정확한 이미지를 구현하겠다는 욕망을 내려놓고 DALL-E라는 기묘함을 받아들이기 시작했다”고 말한다.

<더 프로스트>는 이미지 생성 AI로 모든 장면을 만들어낸 12분짜리 단편 영화이다. 이 영화는 ‘AI 영화 제작’이라는 새롭고 이상한 장르를 보여주는 가장 인상적이고 기이한 사례 중 하나이다. 이 영화는 MIT 테크놀로지 리뷰의 독점 공개를 통해 아래에서 감상할 수 있다.

Waymark / Latent Cinema

웨이마크는 <더 프로스트> 제작을 위해 이 영화의 감독이자 회사의 책임제작자(executive producer)인 조시 루빈(Josh Rubin)이 쓴 대본을 받아서 오픈AI의 이미지 생성 모델 DALL-E 2에 입력했다. AI 모델로 만족스러운 스타일의 이미지를 생성할 때까지 어느 정도의 시행착오가 있기는 했지만, 이들은 결국에 DALL-E 2로 영화의 모든 장면을 생성할 수 있었다. 그런 다음 정지 이미지에 움직임을 추가할 수 있는 AI 도구인 ‘D-ID’를 사용해서 인물의 눈을 깜빡이게 하거나 입술을 움직이게 하는 식으로 장면을 움직이게 만들었다.

루빈은 “우리는 DALL-E가 생성한 이미지들로 하나의 세상을 만들었다. 이상한 미학이 담겨 있는 이미지들을 우리는 두 팔 벌려 환영했고, 그것들이 모여 영화의 모습을 갖추게 되었다”고 말한다.

창의적 기술을 전문으로 하는 컨설팅 기업 벨앤휘슬(Bell & Whistle)의 공동설립자이자 독립 영화제작자인 수키 메흐다위(Souki Mehdaoui)는 “이 작품은 스타일에 일관성이 느껴지는 최초의 생성형 AI 영화라고 할 수 있다. 정지 이미지를 생성하고 마치 인형극처럼 그 이미지를 움직여서 영상을 만들어 놓으니 재미있는 콜라주 같은 느낌이 든다”고 설명한다.

<더 프로스트> 외에도 다양한 생성형 AI 도구로 제작한 단편 영화들이 지난 몇 달간 공개된 바 있다. 최고의 영상 생성 AI 모델도 여전히 몇 초짜리 영상밖에 생성하지 못한다. 따라서 현재까지 공개된 AI 영화들은 <더 프로스트>에서처럼 정지화면을 스토리보드처럼 연결하는 방식부터 서로 길이가 다른 몇 초짜리 클립 여러 개를 이어 붙이는 방식까지 다양한 스타일과 기법을 보여준다.

지난 2월과 3월에는 영상 제작용 AI 도구를 만드는 기업인 런웨이(Runway)가 뉴욕에서 AI 영화제를 개최했다. 이 행사에서 주목할 만한 작품 중에는 이미지 생성 모델 미드저니(Midjourney)로 생성한, 비닐봉지에 쌓인 이상한 바다 생물들의 어지러운 모습이 담긴 라엔 산체스(Laen Sanches) 감독의 초현실적인 영화 <PLSTC>, 2D 사진을 3D 가상 물체로 변환하는 NeRF 기술을 사용한 제이크 올슨(Jake Oleson) 감독의 몽상적인 영화 <기븐 어게인(Given Again)>, 그리고 샘 로턴(Sam Lawton) 감독의 초현실적인 향수를 그린 영화 <확장된 어린 시절(Expanded Childhood)> 등이 있다. <확장된 어린 시절>은 DALL-E 2를 이용해서 사진 프레임 너머까지 확장한 감독의 어린 시절 사진들을 슬라이드쇼처럼 하나씩 보여주는데, 이를 통해 감독은 기억에서 희미해진 사진 프레임 바깥의 실제 모습을 생각해보게 되었다.

Expanded Childhood / Sam Lawton

로턴은 AI로 확장한 사진들을 보여줬을 때 아버지가 보인 반응을 영화에 기록했다. 영상 속에서 그의 아버지는 이렇게 말한다. “뭔가 이상하다. 이게 대체 뭔지 모르겠다. 내가 그냥 기억을 못 하는 건가?”

빠르고 저렴하게

신기술을 최초로 실험하는 사람은 예술가인 경우가 많다. 그러나 생성형 영상의 근미래는 광고 산업계가 형성하고 있다. 웨이마크는 생성형 AI가 어떻게 제품으로 탄생할 수 있을지 탐구하기 위해 <더 프로스트>를 제작했다. 이들은 더 빠르고 저렴한 광고 제작법을 찾고 있는 기업들을 위한 영상 제작 도구를 만든다. 웨이마크는 소프트큐브(Softcube)와 베디아 AI(Vedia AI) 등과 더불어 클릭 몇 번만으로 고객에게 맞춤형 영상 광고를 제공하는 여러 스타트업 중 한 곳이다.

웨이마크가 현재 보유한 기술은 대형 언어모델(large language model), 이미지 인식(image recognition), 음성 합성(speech synthesis) 등 몇 가지 AI 기술을 결합해서 빠르게 영상 광고를 생성하는 기술이며, 올해 초에 제품으로 출시됐다. 웨이마크는 또한 AI로 생성하지 않은, 기존 고객들을 위해 만들었던 광고들로 이루어진 대규모 데이터 세트도 활용했다. 회사의 최고경영자 알렉스 퍼스키 스턴(Alex Persky-Stern)은 “우리는 수십만 개의 영상을 보유하고 있고, 그중에서 가장 좋은 영상들을 이용해서 좋은 영상이 무엇인지에 대해 모델을 학습시켰다”고 말한다.

월 25달러(약 3만 원)부터 시작하는 단계별 구독 서비스에서 제공하는 웨이마크의 도구를 사용하고자 하는 이용자들은 회사 이름과 위치만 제공하면 된다. 해당 도구는 처음에 이용자들의 회사 웹사이트와 소셜미디어 계정에서 텍스트와 이미지를 수집한다. 그러고 나서 수집한 데이터를 사용해서 광고를 생성하는데, 광고는 기업의 장점이 돋보이도록 선정한 이미지 위에서 오픈AI의 GPT-3로 작성한 스크립트를 합성 음성을 이용해 크게 낭독하는 방식으로 만들어진다.

1분 정도 길이의 매끄러운 광고는 몇 초면 생성할 수 있다. 이용자들은 원할 경우 스크립트를 수정하거나 이미지를 편집하고 음성을 바꾸는 등 결과물을 편집할 수 있다. 웨이마크는 지금까지 10만 명 이상이 자사의 도구를 사용했다고 말한다. (웨이마크의 AI 생성 광고의 예시는 여기에서 볼 수 있다.)

문제는 모든 의뢰인이 수집할 웹사이트나 이미지를 가지고 있는 것은 아니다. 파커는 “회계사나 치료사는 그런 자료가 전혀 없을 수도 있다”고 말한다.

웨이마크의 다음 아이디어는 사용 가능한 데이터가 아예 없거나 기존에 보유한 이미지나 영상을 사용하고 싶지 않은 의뢰인을 위한 이미지와 영상을 생성형 AI로 만들어내는 것이다. 파커는 “그것이 <더 프로스트>의 제작 취지였다. 우리는 생성형 AI로 새로운 세계와 분위기를 만들고자 했다”고 말한다.

<더 프로스트>는 분명히 어떤 분위기를 자아낸다. 하지만 그 품질이 뛰어나지는 않다. 루빈은 “아무래도 AI 도구가 아직 완벽하지는 않다. DALL-E로 사람의 표정 같은 특정 이미지를 생성하기는 다소 힘들었다. 하지만 어떨 때는 꽤 만족스러웠다. 그럴 때면 우리는 ‘우리 눈앞에서 마법 같은 일이 일어나고 있다’고 말하곤 했다”고 설명한다.

이처럼 어떨 때는 성공적이고 어떨 때는 실패하는 등 예측할 수 없는 AI 도구의 처리 과정은 기술이 발전할수록 개선될 것이다. 웨이마크가 <더 프로스트> 제작에 사용한 DALL-E 2는 고작 1년 전에 출시됐으며, 짧은 클립을 생성하는 영상 생성 도구는 출시된 지 몇 달밖에 지나지 않았다.

루빈은 이 기술의 가장 혁신적인 측면이 “원할 때마다 새로운 장면을 생성할 수 있다는 점”이라고 말한다. 그는 “15분 정도 시행착오를 겪고 나면 시퀀스에 완벽하게 부합하는 장면을 얻을 수 있다”고 말한다. 영화를 편집하는 과정에서 산비탈 위의 부츠를 클로즈업한 장면 같은 특정 장면이 필요할 때면 그는 DALL-E로 원하는 장면을 바로 만들어낼 수 있었다. 그는 “이는 엄청난 일이다. 영화제작자로서 정말 놀라운 경험을 하게 된 순간이었다”고 설명한다.

런던에 본사를 둔 짧은 영상 제작 스타트업 프라이빗 아일랜드(Private Island)의 공동설립자 크리스 보일(Chris Boyle)도 지난해 이미지 생성 모델을 처음 봤던 순간을 회상하며, “이 도구가 모든 것을 바꿀 것이라는 생각이 들면서 순간적으로 현기증을 느꼈다”고 말한다.

보일과 그의 팀은 버드라이트(Bud Light) 맥주, 나이키, 우버, 테리스 초콜릿(Terry’s Chocolate) 등 다양한 글로벌 브랜드를 위한 광고와 ‘콜 오브 듀티(Call of Duty)’ 같은 유명 게임의 짧은 게임 내 영상들도 만들었다.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             

프라이빗 아일랜드는 몇 년 동안 후반 작업 단계에서 AI 도구를 사용해왔으나 팬데믹 기간에 도구 사용을 늘렸다. 보일은 “봉쇄 기간에 매우 바빴지만 이전과 같은 방식으로 촬영할 수가 없어서 당시에 머신러닝을 훨씬 더 많이 활용하기 시작했다”고 설명한다.

프라이빗 아일랜드는 NeRF를 사용해서 2D 사진을 3D 장면으로 전환하거나 모션캡처 데이터를 처음부터 수집하는 대신에 머신러닝을 사용해서 기존 영상에서 복제하는 등 후반 작업과 시각 효과(visual effect) 작업을 더 용이하게 해주는 다양한 기술을 채택했다.

그러나 생성형 AI는 새로운 개척지이다. 몇 달 전에 프라이빗 아일랜드는 런웨이의 영상 제작 모델 Gen-2와 스태빌리티AI(Stability AI)의 이미지 생성 모델 스테이블디퓨전(Stable Diffusion)을 사용해서 제작한 맥주 광고 패러디 영상을 인스타그램 계정에 포스팅했다. 이 영상은 천천히 입소문을 타며 큰 인기를 누렸다. <합성 여름(Synthetic Summer)>이라는 제목의 이 영상은 태평한 젊은이들이 햇살 아래에서 편안하게 술을 마시고 있는 미국의 전형적인 뒷마당 파티 장면을 보여준다. 단지 파티에 있는 사람들 중 상당수가 입 대신 얼굴에 크게 갈라진 구멍 같은 걸 가지고 있고, 그들이 맥주를 마실 때마다 맥주 캔이 머릿속으로 들어가는 것 같은 데다가 뒷마당은 불타고 있을 뿐이다. 마치 ‘호러쇼’ 같다.

https://player.vimeo.com/video/821962936?dnt=1&app_id=122963
Synthetic Summer / Private Island

보일은 “처음에 영상을 보면, 매우 일반적이고 평범한 미국 문화를 보여주는 듯하다. 하지만 자세히 보면 사람들의 얼굴이 전부 뒤통수에 달려 있는 걸 알 수 있다”고 말한다.

그는 “우리는 도구 자체에 대해 이야기하는 것을 좋아한다. 그런 맥락에서 <합성 여름>은 좋은 예라고 생각한다. 그 자체로 소름 끼치기 때문이다. 이 영상은 AI에 대해 우리가 우려하는 내용 중 일부를 시각화하여 보여준다”고 설명한다.

장점을 발휘하다

이런 상황을 새로운 영화 제작 시대의 시작이라고 할 수 있을까? 현재 사용할 수 있는 도구들은 기능이 제한적이다. 그래도 <더 프로스트>와 <합성 여름>은 각각의 영상 제작에 사용된 기술의 장점을 잘 보여준다. <더 프로스트>는 DALL-E 2의 소름 끼치는 미학에 잘 어울리며, <합성 여름>에는 빠르게 지나가는 장면이 많은데, 이는 Gen-2 같은 영상 생성 도구로는 한 번에 몇 초짜리 영상만 생성할 수 있어서 그런 짧은 영상들을 연결해야 하기 때문이다. 보일은 모든 것이 혼란스러운 파티 장면에 그런 빠른 장면 전환이 효과적이라고 말한다. 프라이빗 아일랜드는 빠른 장면 전환이 주제 전달에 적절한 무술 영화를 만드는 것도 고려했다.

이 영상들을 보고 있으면 AI가 생성한 영상이 뮤직비디오나 광고에 사용되기 시작할지도 모른다는 생각이 들 수 있다. 하지만 그 이상은 확실하지 않다. 메흐다위는 “실험적인 예술가와 소수의 브랜드를 제외하고는 아직 생성형 AI를 사용하려는 사람이 많지 않다”고 말한다.

기술이 계속해서 변화하고 있다는 점도 잠재적인 고객들이 선호하기 어려운 요소이다. 메흐다위는 “이런 프로젝트에 관심이 있지만 기술이 너무 빠르게 변화하고 있어서 자원 투입을 주저하는 많은 회사들과 이야기를 나눠왔다”고 말한다. 보일은 많은 기업들이 스테이블디퓨전 같은 모델 학습에 사용되는 데이터 세트에 포함된 저작권 있는 이미지 사용과 관련해서 소송이 진행 중인 점을 경계하고 있다고 말한다.

메흐다위는 “이 기술이 어디로 향하는지 아무도 확실히 알 수 없다”며 “현재는 기술에 대한 제대로 된 고려 없이 추정만 쏟아지는 상태다”라고 말한다.

한편, 영화제작자들은 이러한 새로운 도구로 실험을 계속하고 있다. 자신의 친구이기도 한 제이크 올슨의 작품을 보고 영감을 받은 메흐다위는 생성형 AI를 사용해서 오피오이드(opioid) 사용 장애의 오명을 벗기는 데 도움을 주기 위한 짧은 다큐멘터리 영화를 만들고 있다.

웨이마크는 <더 프로스트>의 속편을 계획하고 있지만, 이번에도 DALL-E 2를 활용하지는 않을 것이다. 퍼스키 스턴은 “우리 작업은 ‘이 분야 주시하기’에 더 가깝다고 할 수 있다. 다음 프로젝트를 진행한다면 아마도 새로운 기술을 사용해서 그 기술의 가능성을 살펴보려고 할 것이다”라고 말한다.

프라이빗 아일랜드는 다른 영화들도 실험하고 있다. 올해 초에는 챗GPT로 제작한 대본과 스페이블디퓨전으로 생성한 이미지를 이용해 영상을 제작했다. 이제는 실사 공연자들이 스테이블디퓨전이 디자인한 의상을 입고 연기하는 하이브리드 영화를 제작하고 있다.

보일은 “우리는 생성형 AI의 미학적인 부분에 매우 관심이 많다”고 말하며 이모티콘과 글리치 효과(glitch effect)로 전락한 디지털 문화의 지배적인 이미지가 변화하고 있는 것이라고 덧붙인다. 그는 “새로운 미학이 어디에서 탄생하는지 보는 것은 매우 흥분되는 일이다. 생성형 AI는 우리에게 마치 깨진 거울과 같다”고 말한다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.