
COURTESY SYNTHESIA
Synthesia’s AI clones are more expressive than ever. Soon they’ll be able to talk back.
현실과 가상의 경계를 허무는 신세시아의 ‘AI 아바타’
AI 아바타가 점점 더 사실적인 표정과 억양을 구현하며 사람과의 차이를 좁혀가고 있다. 머지않아 이들은 대화까지 가능해질 전망이다.
올여름 초 필자는 런던의 한 고급 사무실을 찾았다. 유리로 된 로비를 지나 엘리베이터에 올라탄 뒤 복도를 따라 들어가자 카펫이 깔린 깔끔한 방이 눈에 들어왔다. 창으로 쏟아지는 햇살에 더해 우산처럼 생긴 대형 조명 장치 두 개가 공간을 더욱 환히 밝혔다. 삼각대에 놓인 대형 카메라와 대본이 띄워진 노트북 앞에 앉은 필자는 눈이 부시지 않은 척 애쓰며 심호흡을 하고 대본을 읽기 시작했다.
이곳은 뉴스 앵커석도, 영화 오디션장도 아닌 AI 기업 신세시아(Synthesia)의 사무실이었다. 신세시아의 아바타는 최근 몇 년간 AI 기술이 얼마나 눈부신 속도로 발전했는지를 보여주는 지표와도 같다. 필자는 지난달 공개된 최신 모델이 사람을 얼마나 정밀하게 재현할 수 있을지 직접 확인해 보고자 이곳을 찾았다. 필자의 아바타 제작에 필요한 데이터를 제공하기 위해서였다.
신세시아가 2017년 설립될 당시 회사의 목표는 실제 인물의 얼굴을 AI로 구현하고, 이를 다양한 언어로 더빙된 목소리와 매칭하는 것이었다. 전직 축구 스타 데이비드 베컴이 다른 언어로 말하는 영상을 만드는 식이었다. 이후 2020년에는 기업 고객이 직원이나 사전에 동의한 배우들의 아바타를 활용해 전문가 수준의 프레젠테이션 영상을 제작할 수 있도록 서비스를 확대했다. 하지만 당시 기술은 아직 완벽하지 않았다. 아바타의 움직임은 끊기고 부자연스러웠으며, 발음이 매끄럽지 않았고, 목소리가 전달하는 감정이 표정과 어긋나는 경우도 많았다.