fbpx
AI text-to-speech programs could “unlearn” how to imitate certain people

성균관대 연구진, AI가 특정 목소리 ‘잊게’ 만드는 기술 개발…오디오 딥페이크 방지 기대

고종환 성균관대학교 전자전기공학부 교수가 이끄는 연구팀이 인공지능(AI)이 특정 화자의 목소리를 선택적으로 ‘잊도록’ 만드는 언러닝(Unlearning) 기술을 개발했다. 이 기술은 딥페이크 음성 사기나 무단 복제를 방지하기 위한 새로운 대응 방식으로 주목받고 있다.

‘머신 언러닝(machine unlearning)’이라는 기술로 AI 모델이 특정 목소리를 ‘잊도록’ 만들 수 있다는 연구 결과가 나왔다. 타인의 음성을 모방해 사기나 범죄에 악용되는 오디오 딥페이크 문제를 막기 위한 중요한 첫걸음이 될 수 있다는 평가가 나온다.

최근 인공지능 기술의 발전으로 텍스트 음성 변환(text-to-speech, TTS) 기술은 단어를 기계적으로 읽어주는 수준을 넘어, 사람의 말투와 억양까지 정교하게 재현할 수 있을 만큼 고도화됐다. 이제는 단 몇 초 분량의 음성만 있어도 누구의 목소리든 자연스럽게 흉내 낼 수 있는 시대가 된 것이다.

최근 머신 언러닝을 음성 생성에 처음으로 적용한 논문의 공동 저자로 참여했한 고종환 성균관대학교 전자전기공학부 교수는 “이제는 누구의 목소리든 몇 초의 음성만으로 재현하거나 복제할 수 있는 시대”라며 연구 배경을 설명했다.

실제로 복제된 목소리는 각종 사기, 허위 정보 유포, 온라인 괴롭힘 등에 이미 악용되고 있다. 오디오 신호처리를 연구하는 고 교수와 공동 연구진은 이러한 ‘음성 기반 신원 도용’을 막고자 머신 언러닝 기법을 실험에 도입하게 됐다. 고 교수는 “이제 사람들은 자신의 동의 없이 목소리가 생성되는 상황에서 이를 거부할 수 있는 방법을 찾기 시작했다”고 말했다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!