We could run out of data to train AI language programs

AI 언어 프로그램을 학습시킬 데이터가 부족할 수 있다

연구자들은 더 창의적인 방법으로 AI 학습용 데이터를 확보해야 할지도 모른다.

대규모 언어모델(large language model)은 현재 AI 연구에서 가장 인기 있는 분야 중 하나이며 기업들은 매우 논리 정연한 기사나 심지어 컴퓨터 코드까지 작성할 수 있는 GPT-3 같은 프로그램을 출시하기 위해 경쟁하고 있다. 그러나 AI 분야의 어떤 연구팀이 발표한 논문에 따르면 언어모델을 둘러싼 이러한 흐름에 곧 문제가 생길 것으로 보인다. 대규모 언어모델을 학습시킬 데이터가 부족해질 수도 있기 때문이다.

언어모델은 위키피디아, 뉴스 기사, 과학 논문, 책 같은 출처에서 가져온 다양한 텍스트를 사용하여 학습한다. 최근 몇 년 동안은 이러한 모델을 더 정확하고 다재다능하게 만들고자 하는 바람으로 점점 더 많은 데이터를 사용해서 교육하는 추세였다.

문제는 언어모델을 학습시키는 데 일반적으로 사용하는 유형의 데이터가 가까운 미래에 고갈될지도 모른다는 점이다. AI 연구 및 예측 기관 에포크(Epoch)의 연구팀이 발표한 논문에 따르면 이르면 2026년에 데이터가 고갈될 것으로 보인다(이 논문은 아직 동료평가를 거치지 않았다). 이러한 문제가 발생하는 이유는 연구원들이 더 뛰어난 능력을 가진 더 강력한 모델을 만들려면 언어모델 학습에 사용할 더 많은 텍스트를 찾아야 하기 때문이다. 이번 에포크의 연구에는 참여하지 않은 AI 기업 허깅페이스(Hugging Face)의 연구원 테븐 르 스카오(Teven Le Scao)는 대규모 언어모델 연구자들 사이에서 언어모델 학습에 사용할 데이터가 고갈될 것이라는 우려가 점점 더 커지고 있다고 말했다.

이 문제의 원인에는 언어 AI 연구자들이 모델 학습에 사용하는 데이터를 두 가지 범주로 필터링한다는 점도 포함된다. 그 두 가지 범주란 바로 ‘고품질’과 ‘저품질’이다. 에포크의 연구원이자 이번 논문의 주 저자인 파블로 빌라로보스(Pablo Villalobos)는 두 범주 사이의 경계가 모호할 수도 있다고 지적한다. 하지만 고품질로 분류되는 텍스트는 주로 더 잘 쓰여진 텍스트이며 전문 작가가 쓴 글인 경우가 많다.

저품질로 분류되는 데이터는 소셜미디어 게시글이나 4chan 같은 웹사이트의 댓글에서 가져온 텍스트로 구성되며 고품질로 분류되는 데이터보다 양이 훨씬 더 많다. 연구원들은 일반적으로 고품질 범주에 속하는 데이터를 이용해서 모델을 학습시킨다. 언어모델이 그런 고품질 텍스트를 재생산하기를 바라기 때문이다. 이렇게 고품질 데이터로 모델을 학습시키는 방식을 통해 GPT-3 같은 대규모 언어모델에서 일부 인상적인 결과를 낳을 수 있었다.

서던캘리포니아대학교에서 데이터세트의 품질을 전문으로 하는 머신러닝(machine learning) 전공 교수 스와바 스와얌딥타(Swabha Swayamdipta)는 이러한 데이터 제약을 극복하는 한 가지 방법이 ‘저품질’과 ‘고품질’이라는 정의를 재평가하는 것이라고 말했다. 스와얌딥타는 데이터 부족으로 AI 연구원들이 더 다양한 데이터세트를 학습 과정에 통합하게 된다면 언어모델에는 긍정적인 결과가 나올 수 있다고 주장했다.

연구원들은 언어모델 학습에 사용하는 데이터의 수명을 연장하는 방법을 찾을지도 모른다. 현재 대규모 언어모델은 성능과 비용 제약으로 인해 학습에 동일한 데이터를 한 번만 사용한다. 그러나 스와얌딥타는 같은 데이터를 사용해서 모델을 여러 번 학습시키는 것도 가능할 수 있다고 말했다.

일부 연구자들은 어쨌든 언어모델에 관해서는 더 많은 것이 더 나은 것은 아닐 수도 있다고 생각한다. 스탠퍼드대학교의 컴퓨터과학 교수 퍼시 량(Percy Liang)은 모델을 더 효율적으로 만드는 것은 단순히 크기를 키우는 것이 아니라 모델의 능력을 향상시키는 것이라는 증거가 있다고 말했다. 그는 “우리는 더 좋은 품질의 데이터로 학습한 규모가 작은 모델이 저품질 데이터로 학습한 대규모 모델보다 더 나은 성능을 보이는 모습을 목격해왔다”고 설명했다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.