AI voice actors sound more human than ever—and they’re ready to hire

실전 투입 준비를 마친 AI 음성 합성 기술

딥러닝 기술을 활용해 음성 비서, 비디오 게임 캐릭터, 기업 홍보 자료에 사용될 목소리를 합성하는 새로운 스타트업들이 나타났다.

웰세드 랩스(WellSaid Labs)의 블로그 게시글을 보면 미국의 1990년대 광고가 뿜어내던 열정이 느껴진다. 웰세드 랩스는 “새로운 성우 여덟 명”을 고객에게 소개한다. 설명에 따르면 토빈은 “에너지가 넘치고 통찰력이 있고,” 페이지는 “침착하고 감정 표현이 뛰어나며,” 애바는 “기품과 자신감, 전문성을 지녔다.”

이들 캐릭터에는 모두 실제 성우의 초상(likeness)이 (동의 하에) 사용되었다. 이제 웰세드 랩스 고객은 AI 성우에게 원하는 말을 하도록 시킬 수 있다. 음성 엔진에 짧은 원고를 입력하면 성우가 말하는 듯한 자연스러운 내레이션이 생성된다.

비영리 기구 앨런인공지능연구소(Allen Institute of Artificial Intelligence)에서 분사한 시애틀 소재 스타트업 웰세드 랩스는 AI 음성 합성 전문 기업이다. 기업용 e러닝이 주력 분야다. e러닝 외에 음성 비서, 콜센터 상담원, 비디오 게임 캐릭터를 전문으로 하는 기업도 있다.

딥페이크 음성 합성 기술은 얼마 전까지만 해도 보이스 피싱이나 인터넷 기반 사기에 악용되면서 그다지 좋은 이미지는 아니었다. 그렇지만 합성 품질이 좋아지면서 합성 음성에 관심을 보이는 기업이 늘었다. 최근 딥러닝 기술의 빠른 발전 덕분에 사람의 말에 나타나는 미묘한 특징도 따라할 수 있게 되었다. 이제 AI 성우는 말하다가 중간에 필요한 곳에서 잠깐 말을 멈추거나 호흡을 할 수 있다. 감정에 따라 말투를 바꾸기도 한다. 녹음 시간이 길어지면 진짜 사람이 아니라는 티가 나지만, 짧은 길이의 녹음에서는 진짜 사람인지 AI인지 구분이 안가는 경우도 있다.

AI 음성 합성 기술은 비용이 적게 들고 대규모 제작이 가능하며 조작이 용이하다. 전문 성우의 녹음과 달리, AI 성우의 녹음은 원고를 실시간으로 변경할 수 있어 맞춤 광고에 대한 새로운 기회도 창출한다. 

그렇지만 이런 초현실적인 음성 합성 기술의 발전이 그냥 주어지는 것은 아니다. 특히 전문 성우들은 음성 합성 기술의 발전이 생계에 미칠 영향에 대해 걱정하는 처지가 되었다.

음성 합성 방법

음성 합성 기술은 꽤 오래 전에 도입되었다. 그런데 애플의 시리나 아마존의 알렉사 같은 초기 음성 합성 기술은 단어와 소리들을 단순하게 연결하여 투박하고 기계적인 느낌을 주었다. 조금 더 자연스러운 소리를 내려면 사람이 일일이 조정해야 했다.

그런데 딥러닝이 등장하면서 상황이 완전히 달라졌다. AI 성우가 텍스트를 읽는 속도와 발음, 억양 등을 개발자들이 정확하게 지시할 필요가 없어진 것이다. 대신 몇 시간 분량의 오디오 파일만 입력하면 알고리즘이 스스로 패턴을 학습하기 시작했다.

“내가 만약 피자헛 담당이라면 도미노나 파파존스의 목소리와는 달라야 한다.”

보컬리드 창립자 겸 대표이사 루팔 파텔(Rupal Patel)

지난 몇 년간 연구자들은 이런 기본 개념을 토대로 음성 엔진 개발과 개선에 매달렸다. 웰세드 랩스의 경우 음성 엔진에 기본적으로 두 가지 딥러닝 모델을 사용한다. 첫 번째 모델은 강세와 높낮이, 음색 등 화자의 음성에 나타나는 전반적인 특징을 단락 수준에서 예측한다. 두 번째 모델은 호흡과 공기 중에서 목소리의 공명 등 나머지 세부적인 부분을 예측한다. 

그렇다고 해서 자판기처럼 버튼만 누르면 그럴 듯한 합성 음성이 나오는 것은 아니다. 인간의 목소리가 인간답게 들리는 것은 일관성이 없고 감정이 섞여 있기 때문이다. 같은 말도 맥락에 따라 완전히 스타일이 달라지는 것도 인간의 음성이 지닌 특징이다.

이런 미묘한 특징을 정확히 살리기 위해서는 딥러닝 모델을 미세 조정해야 한다. 따라서 여기에 필요한 정확한 훈련 데이터를 제공할 진짜 성우를 찾아야 한다. 웰세드 랩스에 따르면 이를 위해 최소 한두 시간 분량의 오디오가 필요하다. 그리고 이를 토대로 세부적인 사항을 일일이 조정하여 자연스러운 복사본을 합성하는 데 몇 주가량 소요된다.

AI 음성 합성 기술은 수백만 건의 고객 상담을 처리하면서 일정한 스타일을 유지하기를 원하는 브랜드에 인기가 많다. 오늘날 스마트 스피커가 널리 보급되고, 고객 센터 상담은 자동화되고, 디지털 비서가 탑재된 자동차 및 스마트 기기도 증가하고 있다. 이 같은 상황에서 매달 100시간이 넘는 분량의 녹음된 음성을 필요로 하는 브랜드들이 있다. 그런데 이들은 기존의 텍스트-음성 변환(TTS) 기술로 합성한 일반적인 음성을 더 이상 찾지 않는다. TTS 기술은 코로나19 대유행으로 대면 접촉을 꺼리는 고객이 늘면서 확산 추세를 보였다.

“내가 만약 피자헛 담당이라면 도미노나 파파존스의 목소리와는 달라야 한다”고 노스이스턴 대학교(Northeastern University) 교수이자 보컬리드(VocaliD) 창립자 겸 대표이사 루팔 파텔(Rupal Patel)은 말한다. 보컬리드는 기업의 브랜드 정체성에 어울리는 맞춤 음성을 생성한다. “이 브랜드들은 지금까지 브랜드 색깔과 글씨체에 대해 고민했다. 이제 목소리에 대해서도 고민하기 시작했다.”

그동안 기업은 시장마다 다른 목소리를 사용했다. 예를 들어, 미국 북동부와 남부에서 사용하는 목소리가 다르고, 프랑스와 멕시코에서 사용하는 목소리도 달랐다. 그런데 몇몇 음성 AI 기업이 하나의 목소리를 사용하면서 강세나 표현만 바꾸는 기술을 개발했다. 그 덕분에 스트리밍 플랫폼상에서 청취자에 따라 광고의 일부를 살짝 변경할 수 있게 되었다. 목소리의 특징만 바꾸는 것이 아니라 사용하는 단어도 바꿀 수 있다. 예를 들어, 같은 맥주 광고라도 청취자의 위치가 뉴욕이냐 토론토냐에 따라 다른 술집을 권하는 식이다. 광고와 스마트 비서에 사용되는 음성을 설계하는 리셈블닷에이아이(Resemble.ai)는 이미 스포티파이와 판도라에서 개인화된 오디오 광고를 내보내기 위해 고객과 협업하고 있다고 밝혔다.

게임 및 엔터테인먼트 산업에서도 AI 음성 합성 기술이 유용하게 사용될 수 있다. 울음, 웃음, 속삭임, 고함 등 감정이 실린 목소리에 전문화된 소난틱(Sonantic)은 비디오 게임 및 애니메이션 회사를 위해 캐릭터의 목소리를 생성한다. 고객은 대부분 출시 전 단계까지만 합성 음성을 사용하고 최종 출시 제품에는 실제 성우의 음성을 사용한다. 그렇지만 소난틱에 따르면 아마 대사가 별로 없는 캐릭터에 한해서이겠지만, 몇몇 기업은 모든 단계에 합성 음성을 쓰는 경우도 있다고 한다. 영화 및 TV 프로그램도 배우가 단어를 잘못 말하거나 발음이 틀렸으면 리셈블닷에이아이 등을 통해 음성을 수정한다.

그렇지만 AI 음성 합성 기술에도 한계는 있다. 오디오북, 팟캐스트처럼 장시간 이어지는 녹음에서는 자연스러움을 끝까지 유지하기가 어렵다. 또, 감독이 진짜 성우에게 지시하는 것처럼 AI 음성을 통제하는 기능은 거의 없다. “음성 합성 기술은 아직 초기 단계”라고 리셈블닷에이아이 창립자 겸 대표이사 조하이브 아흐멧(Zohaib Ahmed)은 말한다. 아흐멧은 CGI 기술도 초록색 배경 위에 완전히 새로운 세계를 창조하는 것이 아니라 세부 수정을 위주로 사용되던 시절이 있었다고 덧붙인다.

사람의 미세 조정

다시 말해 전문 성우들의 일자리가 바로 없어지는 일은 없을 것이라는 뜻이다. 풍부한 표현과 창의적 해석이 중요한 장기 프로젝트는 여전히 전문 성우가 맡는 것이 최선이다. 또 AI 기업이 만드는 목소리 하나하나도 전부 전문 성우가 제공한 훈련 데이터가 일단 있어야 합성을 할 수 있다.

그래도 미래에 대해 불안감을 감추지 못하는 이들이 있다고 미국 성우 조합 SAG-AFTRA 대변인은 말한다. 꼭 AI 자동화 물결에 일자리를 잃을지도 모른다는 걱정이 아니어도, 일에 대한 정당한 대가를 못 받게 되거나 성우의 브랜드이자 자산인 목소리에 대한 권리를 잃지 않을까 하는 불안감이다.

캐나다 출신 성우 베브 스탠딩(Bev Standing)이 틱톡을 상대로 제기한 소송의 쟁점도 바로 이 부분이다. 스탠딩은 틱톡에 내장된 음성 합성 기능이 자신의 목소리를 합성한 복제물을 자신의 동의 없이 사용했다고 주장한다. 스탠딩의 경험은 시리 미국판에 최초 목소리를 제공한 수전 베넷(Susan Bennett)의 경험과 일맥상통한다. 베넷은 최초 녹음에 대해서는 보상을 받았지만, 이후 애플 기기 수백만 개에서 지속적으로 사용되는 음성 초상(vocal likeness)에 대한 보상은 받지 못했다.

성우 업계와의 관계에서 보다 책임 있는 태도를 보이는 기업도 있다. SAG-AFTRA 대변인은 최고의 사례는 조합에 연락하여 전문 성우의 작업을 적절히 보상하고 존중할 방법에 대해 문의한 경우라고 밝힌다.

성우의 목소리를 이용해 합성한 음성이 사용될 때마다 보상을 하는 이익 분배 모델을 채택한 기업도 여럿 있다. 이 방식은 성우들의 새로운 간접 소득원이 되었다. 실제 성우를 AI 초상 설계에 참여시키고, 완성된 AI 초상이 사용될 프로젝트를 거부할 권리를 성우에게 주는 경우도 있다. SAG-AFTRA는 음성의 불법적인 사용을 막기 위한 입법도 추진하고 있다.

그렇지만 보컬리드 대표이사 파텔에게 AI 음성 합성의 핵심은 사람의 목소리를 복제하거나 기존 성우를 밀어내는 데 있지 않다. AI 음성 합성 기술의 궁극적인 핵심은 완전히 새로운 가능성에 대한 약속이다. 파텔은 앞으로 음성 합성 기술을 활용해 온라인 교육 자료를 사용자에 맞춰 빠르게 조정할 수 있다면 어떻게 될지 질문한다. “예를 들어 빈민가 아이들에게 다가가기 위해 AI 성우가 그곳 사람처럼 말한다면 멋지지 않을까요?”

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.