
KAIST·POSTECH·소니 AI, ‘쥬라기 공원 공룡 발소리’ AI 구현…영상 속 물체 무게·속도 읽어
무거운 공룡 발걸음에는 묵직한 저주파음이 나야 자연스럽다. 영상 속 물체의 무게와 속도까지 추론해 그에 맞는 효과음을 자동으로 만들어내는 AI가 국내·일본 공동 연구진에 의해 개발됐다.
영상 속 물체의 모습뿐 아니라 무게와 속도까지 고려해 현실감 있는 효과음을 만드는 인공지능(AI)이 나왔다. KAIST는 전산학부 오태현 교수 연구팀이 POSTECH, 소니 AI(Sony AI) 공동 연구진과 함께, 영상 속 물리적 상황을 이해해 그에 맞는 효과음을 생성하는 AI 기술 ‘파바스(PAVAS·Physics-Aware Video-to-Audio Synthesis)’를 개발했다고 26일 밝혔다.
일반 영상에 숫자로 주어지지 않는 물체의 질량·속도를 AI가 주변 환경과 움직임 맥락에서 스스로 추론하고, 그 결과를 소리 생성에 반영하도록 설계한 것이 핵심이다. 기존 영상-음향 생성 AI가 화면 속 사물의 형태와 장면 패턴에 주로 의존했다면, 파바스는 같은 충돌 장면이라도 물체의 무게와 속도가 달라지면 소리의 크기와 음색이 자연스럽게 달라지도록 구현했다. 시각 패턴에만 기댄 기존 AI의 한계를 넘어 ‘물리 법칙에 일관된 생성 AI(Physical AI)’ 가능성을 보여준 사례라는 점에서 의미가 있다. 이번 연구는 컴퓨터 비전 분야 세계 최고 권위 학회 ‘CVPR 2026’에서 상위 1% 이내만 선정되는 구두(Oral) 발표로 채택됐다.

쥬라기 공룡 발걸음에서 충돌음까지…영상 속 물리 상황 읽는 AI ‘파바스’
영화 ‘쥬라기 공원’에서 거대한 공룡이 걸어오는 장면을 보면 사람들은 자연스럽게 땅이 울리는 듯한 묵직한 저주파음을 떠올린다. 인간이 사물의 형태뿐 아니라 크기와 무게, 움직임의 속도 같은 물리적 특성까지 함께 고려해 소리를 예측하기 때문이다. 그러나 기존 영상-음향 생성 AI는 화면 속 사물의 형태나 장면 정보에 주로 의존해 소리를 만들었을 뿐, 무게나 속도에 따라 달라지는 물리적 특성까지는 충분히 반영하지 못했다.
KAIST·POSTECH·소니 AI 공동 연구팀이 개발한 파바스(PAVAS·Physics-Aware Video-to-Audio Synthesis, 물리 인식 기반 영상→음향 생성)는 이 한계를 정면으로 다뤘다. 영상에서 소리를 만드는 물체를 찾아내고, 그 물체가 얼마나 무겁고 빠르게 움직이는지를 추정한 뒤, 이 물리 정보를 음향 생성 모델에 직접 전달해 장면에 맞는 효과음을 생성하는 방식이다.
검증 결과 파바스는 물체 간 충돌이나 타격 등 물리적 상호작용이 발생하는 장면에서 실제 환경과 매우 유사한 소리를 만들어냈다. 특히 영상 속 물체의 질량과 속도가 달라질 때 소리의 크기와 음색도 자연스럽게 변화하는 등, 같은 형태의 사건이라도 물리적 조건에 따라 달라지는 음향을 구현했다.

보이지 않는 무게와 속도를 추론하는 AI…같은 충돌도 다른 소리로
일반적인 영상에는 물체의 질량이나 정확한 속도가 숫자로 표시되지 않는다. 사람은 경험적으로 “저건 무거워 보인다” “빠르게 부딪혔다”고 짐작하지만, AI에게 이런 비가시적 물리량을 안정적으로 추정시키는 일은 기술적으로 어려운 과제였다.
연구팀은 AI가 영상 속 객체를 인식한 뒤, 그 객체의 움직임과 주변 환경의 맥락을 분석해 질량과 속도 같은 물리량을 추정하도록 설계했다. 추정한 물리량은 음향 생성 모델에 ‘조건 정보’로 입력되고, 모델은 이 조건에 맞춰 충돌 강도와 무게에 일관된 음향을 만들어낸다. 단순히 “무엇이 보이는지”를 인식하는 수준을 넘어, “왜 이런 소리가 발생해야 하는지”의 물리적 원인까지 AI가 이해하도록 한 셈이다.
평가 방식도 새로 만들었다. 연구팀은 영상 속 운동에너지 변화와 생성된 소리의 강도가 얼마나 잘 맞는지를 보는 새로운 일관성 평가 지표와 데이터셋을 함께 제안했다. 같은 충돌 장면이라도 물체의 무게나 속도에 따라 소리가 달라져야 한다는 ‘물리적 타당성’을 측정 가능한 기준으로 만든 것이다.
Veo 3·Seedance가 못 채우는 후반 작업 자동화…’물리 일관 AI’로 가는 길
최근에는 영상과 오디오를 동시에 생성하는 생성형 AI가 빠르게 발전하고 있다. 구글의 ‘비오(Veo) 3’, 바이트댄스의 ‘시댄스(Seedance) 2.0’ 등이 대표적이다. 그러나 실제 영화·광고·게임 제작 현장에서는 새로운 영상을 생성하는 것보다, 이미 완성된 영상에 장면에 맞는 효과음을 입히거나 음향을 보완하는 후반 작업의 수요가 훨씬 크다.
파바스는 바로 이 후반 작업 영역을 겨냥한다. 영상을 새로 만드는 게 아니라, 기존 영상의 움직임과 충돌 특성을 분석해 장면과 정밀하게 맞아떨어지는 효과음을 생성한다. 발걸음, 충돌음, 물체를 내려놓는 소리처럼 장면별 효과음을 자동으로 입힐 수 있어 영화·광고·게임 음향 제작 자동화에 활용될 수 있다. AR·VR 콘텐츠, 메타버스, 로보틱스 시뮬레이션처럼 시각 장면과 소리가 함께 자연스러워야 하는 분야로의 확장 가능성도 있다.
오태현 교수는 “기존 생성 AI가 데이터와 모델 규모를 키우는 방식으로 발전해왔다면, 이번 연구는 AI가 물리량과 인과관계를 직접 이해하도록 설계했다는 점에서 의미가 있다”며 “향후 텍스트·영상·음성 등 다양한 정보를 동시에 이해하고 처리하는 차세대 멀티모달 AI의 핵심 기반 기술로 확장될 수 있을 것”이라고 말했다.