fbpx
This is the most misunderstood graph in AI

AI 발전을 둘러싼 과열된 해석, METR 그래프의 진짜 의미

AI의 도약을 보여주는 METR 그래프는 유토피아나 종말의 신호로 읽히곤 하지만, 그 해석에는 보다 신중한 접근이 필요하다.
📋한눈에 보는 AI 요약▶ 펼쳐보기

비영리 AI 연구기관 METR은 새로운 AI 모델이 나올 때마다 그 능력을 측정해 그래프로 공개하는데, 이 그래프가 AI 능력이 엄청나게 빠르게 발전하고 있다는 상징처럼 퍼졌습니다. 하지만 이 그래프는 주로 코딩 과제만을 대상으로 하고, 측정값에도 큰 오차가 있어서 AI가 곧 사람을 완전히 대체한다는 뜻이 아닙니다. METR 연구진 스스로도 사람들이 이 그래프를 지나치게 확대 해석하고 있다고 경고하고 있습니다. 그럼에도 AI 능력이 점점 빨라지고 있다는 전체적인 추세 자체는 실제로 존재하며, 불완전하지만 변화를 측정하려는 의미 있는 시도로 평가받고 있습니다.

왜 중요한가요?

AI 발전 속도에 대한 과장된 해석이 투자, 정책, 사회적 불안에 영향을 미칠 수 있기 때문에, 이런 지표가 실제로 무엇을 의미하고 무엇을 의미하지 않는지 정확히 이해하는 것이 중요합니다.

주요 용어 설명
시간 지평 (Time Horizon)

METR이 만든 측정 지표로, 어떤 AI 모델이 절반 정도의 확률로 성공할 수 있는 과제를 사람이 풀면 얼마나 걸리는지를 나타냅니다. 예를 들어 시간 지평이 5시간이면, 사람이 5시간 걸리는 수준의 과제를 그 AI가 반쯤은 해낼 수 있다는 뜻이지, AI가 5시간 동안 혼자 일할 수 있다는 뜻이 아닙니다.

기하급수적 성장 (Exponential Growth)

숫자가 일정 기간마다 두 배씩 늘어나는 것처럼 점점 더 빠르게 커지는 패턴을 말합니다. 예를 들어 1, 2, 4, 8, 16처럼 증가하는 것인데, METR 그래프에서는 AI의 과제 수행 능력이 대략 7개월마다 두 배로 늘어나는 이런 패턴을 보였습니다.

최전선급 대형언어모델 (Frontier LLM)

현재 기술 수준에서 가장 뛰어난 성능을 가진 AI 모델을 가리킵니다. 마치 달리기에서 선두 주자처럼, 오픈AI·구글·앤트로픽 같은 회사들이 경쟁적으로 내놓는 최신·최고 성능의 AI가 여기에 해당합니다.

벤치마크의 복잡성 (Messiness)

AI를 시험하는 과제가 실제 현실의 업무처럼 지저분하고 모호한 정도를 뜻합니다. 학교 시험처럼 정답이 명확한 문제는 복잡성이 낮고, 실제 회사에서 여러 사람과 소통하며 불분명한 기준 속에서 해야 하는 일은 복잡성이 높습니다. AI는 이런 복잡한 과제에서 성능이 크게 떨어집니다.

범용인공지능 (AGI, Artificial General Intelligence)

특정 분야만 잘하는 게 아니라 사람처럼 거의 모든 종류의 지적 작업을 스스로 해낼 수 있는 AI를 말합니다. 현재의 AI는 코딩이나 글쓰기 등 일부 영역에서 뛰어나지만, 모든 영역에서 사람 수준으로 작동하는 AGI는 아직 실현되지 않았습니다.

⚡ Claude AI가 독자를 위해 자동 생성한 요약입니다. 원문을 함께 읽어보세요.

오픈AI, 구글, 앤트로픽이 새로운 최전선급 대형언어모델(LLM)을 내놓을 때마다 인공지능(AI) 업계는 숨을 죽인다. 비영리 AI 연구기관인 ‘METR’이 해당 모델을 분석한 그래프를 공개할 때까지다. 지난해 3월 처음 등장한 이 그래프는 이후 AI 담론에서 상징적인 지표로 자리 잡았다. 특정 AI 능력이 기하급수적으로 발전하고 있음을 보여주는 이 그래프에서 최근 공개된 모델들은 이미 인상적이었던 기존 추세마저 가뿐히 뛰어넘는 성능을 기록하고 있다.

이 같은 흐름은 앤트로픽의 최상위 모델인 ‘클로드 오퍼스 4.5(Claude Opus 4.5)’에서도 뚜렷하게 나타났다. 지난해 11월 말 공개된 이 모델에 대해 METR는 약 한 달 뒤 “인간이라면 약 5시간이 걸릴 작업을 오퍼스 4.5가 독립적으로 수행할 수 있는 것으로 보인다”고 평가했다. 이는 기존의 기하급수적 성장 곡선을 기준으로 예상했던 수준을 크게 웃도는 결과였다.

이 발표가 전해지자 앤트로픽 내부에서도 반응이 나왔다. 한 안전성 연구원은 소셜미디어에 “이 결과를 보고 연구 방향을 바꾸게 됐다”고 적었고, 또 다른 직원은 “엄마, 무서워서 집에 가고 싶어요”라는 짧은 글을 남겼다.

다양한 LLM이 50% 성공 확률로 완료할 수 있는 소프트웨어 작업의 시간 지평 / 가로: LLM 출시 일

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!