메타, 100개 이상의 언어 음성 번역이 가능한 AI 모델을 내놓다

메타가 새로운 음성 번역 AI 모델인 심리스M4T를 발표했다. 이 모델은 기존의 번역 방식보다 더 정확하고 효율적으로 음성을 번역할 수 있으며, 오픈소스로 제공되어 누구나 성능 개선에 참여할 수 있다.

Scott J Mulligan

2025년 1월 17일

메타가 101개 언어의 음성을 번역할 수 있는 새로운 인공지능(AI) 모델을 출시했다. 이는 누군가 입에서 나오는 말을 즉시 번역하는 실시간 동시통역이 한 단계 더 발전했음을 의미한다.

일반적으로 음성 번역 모델은 여러 과정을 거친다. 먼저 음성을 텍스트로 번역한다. 이어 이 번역한 텍스트를 다른 언어의 텍스트로 번역한다. 그리고 새로 번역된 텍스트를 새로운 언어의 음성으로 변환한다.

이 방법은 비효율적일 수 있으며, 각 단계에서 오류와 오역이 발생할 수 있다. 그러나 메타가 내놓은 새 모델 심리스M4T(SeamlessM4T)은 한 언어의 음성을 다른 언어의 음성으로 보다 직접적으로 번역할 수 있게 해준다.

이 모델은 15일(현지시가) <네이처> 발표된 논문에서 소개됐다.

메타 연구원들에 따르면 심리스는 가장 성능이 뛰어난 기존 모델보다 23% 더 정확하게 텍스트 번역이 가능하다. 또 다른 모델인 구글의 오디오팜(AudioPaLM)은 심리스보다 기술적으로 더 많은 언어를 번역할 수 있지만(심리스의 101개에 비해 많은 113개 언어) 영어로만 번역이 가능하다. 심리스M4T는 36개의 언어로 번역할 수 있다.

번역의 핵심은 병렬 데이터 마이닝(parallel data mining)이라는 프로세스이다. 이 프로세스는 동영상이나 오디오에서 나는 소리가 인터넷에서 수집한 데이터 내 다른 언어로 작성된 자막과 일치하는 경우를 찾아낸다. 모델은 한 언어의 소리를 다른 언어의 일치하는 텍스트와 연관시키는 방법을 사전에 학습해 새로운 번역 사례 데이터를 대량으로 확보할 수 있었다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!

메타, 100개 이상의 언어 음성 번역이 가능한 AI 모델을 내놓다

개인정보 수집 및 이용

인기 기사

메타, 100개 이상의 언어 음성 번역이 가능한 AI 모델을 내놓다

MIT Technology Review 뉴스레터 구독

가장 빠르게 최신 콘텐츠를 받아 보세요.

개인정보 수집 및 이용

인기 기사

연관 토픽

머스크 vs 올트먼, 오픈AI IPO 앞두고 ‘운명 건’ 법정 충돌

탈(脫) 엔비디아 나선 중국 딥시크…새 모델 V4 전격 공개

법의 빈틈을 파고드는 AI…저비용 감시 시대가 온다

지금 AI 분야에서 주목해야 할 10대 키워드