
STEPHANIE ARNETT/MIT TECHNOLOGY REVIEW | ADOBE STOCK
How do AI models generate videos?
최신 AI 이미지 기술은 어떻게 영상을 생성하나?
AI 영상 생성 도구가 대중화되면서 누구나 실제로 촬영한 것 같은 영상을 손쉽게 만들 수 있는 시대가 열렸다. 이제 그 원리가 어떻게 작동하는지 살펴볼 시점이다.
지난 9개월 동안 동영상 생성 분야는 그야말로 격변의 한 해를 보냈다. 오픈AI가 동영상 생성 AI ‘소라(Sora)’를 공개했고, 구글 딥마인드는 ‘비오3(Veo 3)’를, 생성형 AI 스타트업 런웨이는 ‘젠-4(Gen-4)’를 출시했다. 이들 모델은 실제 촬영 영상이나 CGI 애니메이션과 거의 구분이 어려울 만큼 정교한 클립을 만들어낸다. 올해 넷플릭스는 드라마 ‘영원한 항해자 에테르나우타(The Eternaut)’에 AI 시각효과를 도입하며, 대중 시장을 겨냥한 TV 작품에 동영상 생성 기술을 처음 적용한 사례로 기록되기도 했다.
물론 기업들이 내놓는 데모 영상은 가장 완성도 높은 결과물만을 뽑아내 보여주는 일종의 ‘체리 피킹(cherry-picking)’에 가깝다. 그러나 상황은 달라지고 있다. 유료 구독자라면 챗GPT와 제미나이 앱을 통해 소라와 비오3를 바로 사용할 수 있어, 이제는 아마추어 영상 제작자조차도 손쉽게 눈길을 끄는 결과물을 만들어낼 수 있는 시대가 열린 것이다.
부작용도 만만치 않다. 창작자들은 AI가 양산하는 저품질 콘텐츠와 경쟁해야 하고, 소셜미디어에는 가짜 뉴스를 담은 클립들이 쏟아지고 있다. 여기에 동영상 생성이 텍스트나 이미지에 비해 훨씬 많은 에너지를 소모한다는 점도 문제로 지적된다.
AI 생성 영상이 일상 곳곳을 채우고 있는 지금, 이 기술을 가능하게 하는 핵심 원리를 짚어볼 필요가 있다.