Meta’s new learning algorithm can teach AI to multi-task

AI에게 멀티태스킹 가르칠 수 있는 새로운 학습 알고리즘 등장

메타(Meta, 구 페이스북) AI가 세계 최초로 음성, 이미지, 텍스트를 동시에 인식하는 고성능 인공지능 자기지도 알고리즘인 'Data2vec'을 개발했다.

만약 당신이 개를 눈으로 보고 개인지 알아볼 수 있다면, 누군가가 당신에게 개를 말로 묘사해줄 때도 그가 개를 묘사하고 있는지를 알 수 있을 것이다. 하지만 오늘날의 인공지능(AI)에게는 이런 능력이 없다. 심층 신경망은 사진 속 사물을 식별하고, 자연어를 써서 전달하는 데 매우 능숙하지만. 이 두 가지를 동시에 다 잘하지는 못한다. 다시 말해 이 두 가지 중 하나가 뛰어난 AI 모델은 있지만 모두 뛰어난 AI 모델은 없다.

이런 문제가 생긴 일부 원인은 이러한 AI 모델들이 각자 다른 기술을 사용하여 각자 다른 스킬을 배우기 때문이다. 이것은 멀티태스킹과 적응이 가능한 더 범용적인 AI의 개발을 가로막는 주요한 장애물이다. 이것은 또 한 가지 스킬에 대한 딥러닝의 발전이 다른 스킬들의 발전에 기여하지 않는 경우가 종종 생긴다는 의미이기도 하다.

메타 AI 연구소(전 페이스북 AI 연구소)의 한 팀이 이런 문제 해결에 나섰다. 연구원들은 신경망이 이미지나 텍스트나 음성을 인식하도록 훈련시키는 데 사용할 수 있는 단일 알고리즘을 개발했다. Data2vec라고 불리는 이 알고리즘은 학습 과정을 통합할 뿐만 아니라 세 가지 스킬 모두에서 적어도 기존 기술만큼의 성능을 발휘한다. 메타 AI의 마이클 알리 연구원은 “Data2vec이 이런 종류의 일을 하는 것과 관련해 사람들의 사고방식을 바꿔주기를 바란다”고 말했다.

이번 연구는 신경망이 분류된(labeled) 사례별 지도가 없이도 데이터 세트(데이터베이스)의 패턴을 스스로 발견하는 법을 배우는 일명 ‘자기지도 학습(self-supervised learning)’을 기반으로 한다. GPT-3 같은 거대언어모델은 이런 식으로 인터넷에서 긁어온 미분류된(unlabeled) 방대한 양의 텍스트로부터 배우고 있으며, 이것은 최근 딥러닝 분야에서 일어나는 많은 발전을 이끌고 있다.

아울리와 동료들은 음성 인식 자기지도 학습법을 연구 중이었다. 그런데 다른 연구원들이 이미지와 텍스트 자기지도 학습법을 연구하고 있는 것을 보고 연구원들 모두 각자 다른 기술을 사용해서 똑같은 목표를 추구하고 있다는 사실을 깨달았다.

Data2vec은 학생과 교사라는 두 개의 신경망을 사용한다. 첫째, 교사 신경망은 일반적인 방식으로 이미지, 텍스트, 음성에 대해 훈련을 받으면서 이러한 데이터의 내부표현(internal representation)을 학습함으로써 새로운 사례를 봤을 때 무엇을 보고 있는지 예측할 수 있게 된다. 강아지 사진을 보고 사진 속 대상을 강아지로 인식하는 식이다.

학생 신경망은 교사의 내부표현을 예측하도록 훈련받는다. 다시 말해, 개를 봤을 때 개의 사진을 보고 있다고 추측하는 것이 아니라 같은 사진을 봤을 때 교사에게는 무엇이 보이는지 추측하도록 훈련받는다.

학생이 실제 이미지나 문장이 아니라 그 이미지나 문장에 대한 교사의 표현을 추측하려고 하는 것이므로 알고리즘을 특정 유형의 인풋(input)에 맞출 필요가 없다. Data2vec는 두 가지 이상의 방법으로 세계를 이해하는 법을 배울 수 있는 AI 모델을 향해 나아가는 큰 흐름의 일부이다. 앨런 AI 연구소의 애니 켐하비는 “그것은 영리한 생각”이라면서 “일반화된 학습 시스템 개발에 유망한 발전”이라고 평가했다.

한 가지 중요한 점은 동일한 학습 알고리즘을 서로 다른 스킬에 사용할 수 있더라도 그것이 한 번에 하나의 스킬만을 학습할 수 있다는 사실이다. 알고리즘이 일단 이미지를 인식하는 법을 배웠더라도 음성을 인식하는 법은 처음부터 다시 배워야 한다. 이처럼 AI에 한 번에 여러 스킬을 가르쳐주기 어렵지만, 메타 AI 팀은 다음에 이 문제를 해결하길 원하고 있다.  

연구원들은 그들이 쓴 방식이 기존 기술보다 이미지와 음성을 인식 면에서 실제로 더 좋은 성능을 보인 건 물론이고, 텍스트 이해 면에서는 일류 언어 모델만큼의 성능을 발휘하는 것을 발견하고 놀랐다.

메타의 마크 저커버그 최고경영자(CEO)는 이미 Data2vec를 메타버스 세계에 적용하는 방안을 구상하고 있다. 그는 20일(현지시간) 자신의 페이스북에 “이 모든 것이 결국 AI 비서와 함께 AR 안경 안에 내장될 것”이라면서 “재료가 빠졌는지 알아채거나, 가스불을 낮추도록 유도하거나, 이보다 더 복잡한 일을 하게 해주는 등 여러분이 저녁 식사를 준비하는데 도움을 줄 수 있다”고 말했다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.