fbpx
Facebook’s new polyglot AI can translate between 100 languages

페이스북, 100개 언어 번역하는 다국어 AI 개발

페이스북은 연구자들을 위해 다양한 자동화 및 머신러닝 기법의 정점인 이 인공지능 모델을 오픈소스 방식으로 공개했다.

뉴스 : 페이스북은 100가지 언어 가운데 어느 것이든 서로 번역할 수 있는 인공지능 언어 모델 M2M-100을 오픈소스로 공개했다. 이 AI 모델은 4450개의 조합 가능한 언어 쌍 중에서 1100개를 바로 번역할 수 있다. 이는 매개 언어로 활용하는 영어에 크게 의존하는 기존의 다국어 AI 모델과 차별적인 부분이다. 예를 들어 중국어-프랑스어 번역의 경우, 일반적으로 중국어에서 영어를 거친 뒤 영어에서 프랑스어로 번역이 이루어진다. 이 과정에서 오역 확률은 높아질 수밖에 없다.

데이터 큐레이션 : M2M-100은 75억개의 문장 쌍으로 학습되었다. 이러한 대규모 데이터를 확보하기 위해 연구진은 자동 큐레이션에 상당 부분 의존했다. 웹 크롤러로 웹에서 수십억 개의 문장을 수집하고, ‘패스트텍스트’(FastText)라는 다른 언어 모델을 통해 무슨 언어인지 식별하였다. (여기에 페이스북 데이터는 일절 사용하지 않았다.) 이후 페이스북 AI 연구소가 앞서 개발한 비지도학습 방식의 ‘LASER 2.0’이라는 프로그램을 사용해 여러 언어의 문장을 의미에 따라 서로 짝지었다.

LASER 2.0은 대규모의 비정형 문장 데이터 세트에서 ‘임베딩’ (embedding)을 만든다. 각 언어의 활용 가능한 문장 샘플로 학습하고, 이들이 얼마나 자주, 얼마나 밀접하게 쓰였는지를 바탕으로 관계를 지도처럼 나타낸다. 이러한 임베딩은 머신러닝 모델이 각 문장의 의미를 파악하도록 도우며, 이는 다시 LASER 2.0이 다른 언어로 되어 있으나 같은 의미를 지닌 문장들을 자동적으로 짝지을 수 있도록 한다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!