Large language models can do jaw-dropping things. But nobody knows exactly why.

여전히 베일에 싸인 대형언어모델의 학습 원리

지금까지 대형언어모델이 새로운 작업을 배우는 원리를 정확하게 규명한 사람은 아무도 없다. 이것이 우리 세대의 가장 큰 과학적 수수께끼로 남아있는 것도 이 때문이다. 미래에 등장할 더 강력한 언어모델을 통제하려면 반드시 이 수수께끼를 풀어야 한다.

2년 전 오픈AI(OpenAI)의 연구원 유리 부르다(Yuri Burda)와 해리 에드워즈(Harri Edwards)는 대형언어모델(LLM)이 기본적인 연산을 수행하려면 무엇이 필요한지 알아내려고 애썼다. 두 사람은 LLM이 얼마나 많은 더하기 사례를 봐야 아무렇게나 주어진 두 숫자를 더할 수 있는지가 궁금했다. 처음에는 결과가 신통치 않았다. LLM은 자신이 본 두 숫자의 합을 기억했지만 새로운 문제를 풀지는 못했다. 

그러다 우연히 부르다와 에드워즈는 몇 가지 실험을 의도했던 것보다 훨씬 더 오래, 다시 말해서 몇 시간이 아니라 며칠 동안 진행했다. 두 사람은 원래대로라면 실험을 중단했을 시점을 훨씬 지나서까지 LLM에 반복적으로 합계를 보여줬다. 그렇게 며칠이 지나자 실험은 놀랍게도 성공적인 결과로 이어졌다. LLM이 두 숫자의 덧셈을 학습하기 위해서는 생각보다 훨씬 더 많은 시간이 필요했던 것이다. 

어떻게 된 일인지 궁금했던 부르다와 에드워즈는 동료들과 힘을 합쳐 이 현상을 연구하기 시작했다. 그리고 모델이 학습에 실패하는 것처럼 보이다가 갑자기 성공하는 사례를 발견했다. 그들은 LLM이 이렇게 갑자기 성능이 높아지는 걸 ‘그로킹(grokking)’이라고 불렀다.  부연하면, 그로킹은 복잡한 문제나 상황을 완전히 이해하고, 그에 따라 효과적으로 행동하거나 반응하는 능력을 뜻한다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!