
메타, 100개 이상의 언어 음성 번역이 가능한 AI 모델을 내놓다
메타가 101개 언어의 음성을 번역할 수 있는 새로운 인공지능(AI) 모델을 출시했다. 이는 누군가 입에서 나오는 말을 즉시 번역하는 실시간 동시통역이 한 단계 더 발전했음을 의미한다.
일반적으로 음성 번역 모델은 여러 과정을 거친다. 먼저 음성을 텍스트로 번역한다. 이어 이 번역한 텍스트를 다른 언어의 텍스트로 번역한다. 그리고 새로 번역된 텍스트를 새로운 언어의 음성으로 변환한다.
이 방법은 비효율적일 수 있으며, 각 단계에서 오류와 오역이 발생할 수 있다. 그러나 메타가 내놓은 새 모델 심리스M4T(SeamlessM4T)은 한 언어의 음성을 다른 언어의 음성으로 보다 직접적으로 번역할 수 있게 해준다.
이 모델은 15일(현지시가) <네이처> 발표된 논문에서 소개됐다.
메타 연구원들에 따르면 심리스는 가장 성능이 뛰어난 기존 모델보다 23% 더 정확하게 텍스트 번역이 가능하다. 또 다른 모델인 구글의 오디오팜(AudioPaLM)은 심리스보다 기술적으로 더 많은 언어를 번역할 수 있지만(심리스의 101개에 비해 많은 113개 언어) 영어로만 번역이 가능하다. 심리스M4T는 36개의 언어로 번역할 수 있다.
번역의 핵심은 병렬 데이터 마이닝(parallel data mining)이라는 프로세스이다. 이 프로세스는 동영상이나 오디오에서 나는 소리가 인터넷에서 수집한 데이터 내 다른 언어로 작성된 자막과 일치하는 경우를 찾아낸다. 모델은 한 언어의 소리를 다른 언어의 일치하는 텍스트와 연관시키는 방법을 사전에 학습해 새로운 번역 사례 데이터를 대량으로 확보할 수 있었다.