fbpx
Meta’s new AI model can translate speech from more than 100 languages

메타, 100개 이상의 언어 음성 번역이 가능한 AI 모델을 내놓다

메타가 새로운 음성 번역 AI 모델인 심리스M4T를 발표했다. 이 모델은 기존의 번역 방식보다 더 정확하고 효율적으로 음성을 번역할 수 있으며, 오픈소스로 제공되어 누구나 성능 개선에 참여할 수 있다.

메타가 101개 언어의 음성을 번역할 수 있는 새로운 인공지능(AI) 모델을 출시했다. 이는 누군가 입에서 나오는 말을 즉시 번역하는 실시간 동시통역이 한 단계 더 발전했음을 의미한다.

일반적으로 음성 번역 모델은 여러 과정을 거친다. 먼저 음성을 텍스트로 번역한다. 이어 이 번역한 텍스트를 다른 언어의 텍스트로 번역한다. 그리고 새로 번역된 텍스트를 새로운 언어의 음성으로 변환한다.

이 방법은 비효율적일 수 있으며, 각 단계에서 오류와 오역이 발생할 수 있다. 그러나 메타가 내놓은 새 모델 심리스M4T(SeamlessM4T)은 한 언어의 음성을 다른 언어의 음성으로 보다 직접적으로 번역할 수 있게 해준다.

이 모델은 15일(현지시가) <네이처> 발표된 논문에서 소개됐다.

메타 연구원들에 따르면 심리스는 가장 성능이 뛰어난 기존 모델보다 23% 더 정확하게 텍스트 번역이 가능하다. 또 다른 모델인 구글의 오디오팜(AudioPaLM)은 심리스보다 기술적으로 더 많은 언어를 번역할 수 있지만(심리스의 101개에 비해 많은 113개 언어) 영어로만 번역이 가능하다. 심리스M4T는 36개의 언어로 번역할 수 있다.

번역의 핵심은 병렬 데이터 마이닝(parallel data mining)이라는 프로세스이다. 이 프로세스는 동영상이나 오디오에서 나는 소리가 인터넷에서 수집한 데이터 내 다른 언어로 작성된 자막과 일치하는 경우를 찾아낸다. 모델은 한 언어의 소리를 다른 언어의 일치하는 텍스트와 연관시키는 방법을 사전에 학습해 새로운 번역 사례 데이터를 대량으로 확보할 수 있었다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!