
Photo Illustration by Sarah Rogers/MITTR | Photos Getty
LLMs contain a LOT of parameters. But what’s a parameter?
LLM의 성능을 좌우하는 핵심 단위 ‘파라미터’란 무엇인가?
파라미터는 우리가 즐겨 쓰는 AI 모델을 작동하게 하는 신비로운 숫자들로 이루어져 있다. 그렇다면 이 숫자들은 무엇이며 어떤 역할을 하는 것일까?
이번 기사에서는 대형언어모델(LLM)을 언급할 때 등장하는 개념인 ‘파라미터’에 대해 설명해 보고자 한다. 이 주제를 선정한 이유는 필자의 편집자 중 한 명이 한밤중에 잠에서 깨어 침대 옆 메모지에 이렇게 적어 놓았기 때문이다. “파라미터란 무엇인가?” 새벽 4시에 떠오르는 생각치고는 드물게 정말 좋은 질문이다. LLM이 어떻게 작동하는지를 정확히 꿰뚫는 질문이기 때문이다.
LLM의 파라미터는 흔히 모델의 행동을 조절하는 ‘다이얼’이나 ‘레버’ 같은 장치에 비유된다. 이를 행성 크기의 핀볼 게임(아래)으로 생각해 보자. 구슬이 이리저리 튀도록 튕기는 수십억 개의 장치가 배치되어 있다고 상상하면 된다. 파라미터는 이 장치들과 같아서 조금만 조정해도 구슬의 움직임, 즉 모델의 결과를 완전히 바꿀 수 있다.
오픈AI가 2020년에 공개한 GPT-3는 1,750억 개의 파라미터를 가지고 있었다. 구글 딥마인드의 최신 LLM인 제미나이3는 최소 1조 개(7조 개에 이를 것이라는 추정도 있음)의 파라미터를 가지고 있지만 정확히 공개된 바는 없다. 경쟁이 치열해지면서 AI 기업들은 이제 자사 모델의 구조를 거의 공개하지 않는다.
그러나 모델마다 파라미터의 수가 다르다고 해도 파라미터가 무엇이며 LLM이 놀라운 일을 하는 데 어떤 역할을 하는지에 대한 기본 원리는 동일하다. LLM이 실제로 무엇을 통해 작동하는지 궁금했던 적이 있는가? 그렇다면 이번 기사를 통해 파라미터에 대해 하나씩 살펴보자.