
추론 기술의 반격, 모델 크기 경쟁은 끝났다
지난 몇 년간 AI의 발전 방정식은 지극히 단순했다. 투입되는 데이터량과 파라미터 규모가 곧 지능의 깊이를 결정하는 구조였다. 즉, 더 방대한 데이터를 학습하고 더 막대한 연산 자원을 쏟아부을수록 AI는 비약적으로 영리해졌다. 거대해진 파라미터는 AI에게 인간 수준의 언어 구사력과 복잡한 문제 해결 능력이라는 선물을 안겨줬다.
하지만 이러한 ‘규모의 법칙(scaling law)’은 점차 임계점에 부딪히기 시작했다. 모델이 커질수록 전력 소모와 유지 비용이 기하급수적으로 치솟았고, 답변을 내놓는 속도도 느려졌다. 기업은 천문학적인 서버 비용 부담에 직면했고, 사용자는 점점 더 느려지는 응답 속도를 감내해야 했다. AI가 더 ‘똑똑해지는’ 대신, 무겁고 비싸고 느려지는 문제가 함께 나타났다.
그래서 최근 AI 업계에서는 이전과 다른 질문이 나오기 시작했다.
“이 AI를 실제 서비스로 계속 쓸 수 있는가?”
단순히 모델을 키우는 방식은 더 이상 만능 해법이 아니다. 이제 모델 크기 경쟁은 끝났다. 앞으로 중요한 것은 AI가 답을 내놓기까지의 짧은 순간을 얼마나 효율적으로 설계할 수 있는가다. 이 변화의 중심에 있는 것이 바로 ‘추론 기술’이다.
왜 ‘추론 비용’이 문제가 되었나?
:노암 브라운의 문제 제기
이 전환을 가장 집요하게 파고든 인물 가운데 한 명이 노암 브라운(Noam Brown)이다. 그는 현재 오픈AI에서 추론 모델 o1 개발을 주도한 핵심 연구자로, 업계에서 ‘추론 비용’이라는 문제를 가장 명확하게 언어로 정리한 인물로 꼽힌다.
브라운은 “AI가 더 잘 생각하게 만드는 것이 정말 최선의 방법일까?”라는 질문을 던진다.
그가 보기에 문제는 성능이 아니라 비용 구조다. AI가 복잡한 문제를 풀기 위해 사고 단계를 하나씩 늘릴수록, 내부에서는 엄청난 계산이 발생한다. 계산이 늘어나면 전력 사용량이 급증하고, 답변이 나오는 데 걸리는 시간도 함께 늘어난다. 이 과정이 반복되면 AI는 점점 유지하기 어려운 존재가 된다.
이 현상을 그는 ‘추론 인플레이션’에 가깝다고 본다. 생각을 더 하게 만들수록, 비용이 눈덩이처럼 불어나는 구조다. 연구실 실험에서는 괜찮아 보일 수 있지만, 수백만 명이 동시에 쓰는 서비스 환경에서는 바로 한계에 부딪힌다.
브라운이 이 문제를 집요하게 파고들 수 있었던 배경에는 그의 독특한 이력이 있다. 그는 언어 모델 이전에, 포커 AI ‘리브라투스’와 외교 전략 게임 AI ‘시세로’를 개발한 연구자다. 이 두 시스템은 상대방의 모든 정보가 공개되지 않은 상황에서 판단을 내려야 한다는 공통점이 있다.
이런 환경에서는 오래 계산한다고 더 나은 결과가 나오지 않는다. 중요한 것은 언제 깊게 생각하고, 언제 판단을 멈출지 결정하는 능력이다. 브라운은 바로 이 사고 방식을 언어 모델로 가져왔다.
그는 이를 두고 “모델의 크기를 키우는 시대에서, 추론 시 계산량을 효율적으로 배분하는 시대로 패러다임이 완전히 전환됐다”고 정리했다.

알파고와 무엇이 다른가? ‘보이지 않는 판’의 문제
브라운의 접근은 종종 구글 딥마인드의 알파고와 비교된다. 하지만 두 방식 사이에는 결정적인 차이가 있다.
알파고가 상대했던 바둑은 모든 정보가 공개된 게임이다. 바둑판 위에 놓인 돌은 모두 보인다. 문제를 풀기 전, 문제지에 모든 조건이 적혀 있는 시험과 비슷하다. 이 환경에서는 가능한 경우의 수를 최대한 많이 계산하는 것이 유리하다.
반면 포커나 외교 게임은 다르다. 상대가 어떤 카드를 들고 있는지 알 수 없고, 때로는 거짓말까지 섞인다. 이 상황에서 중요한 것은 오래 생각하는 것이 아니라, 불확실성을 전제로 판단을 조정하는 능력이다. 브라운의 추론 기술은 바로 이 지점에 초점을 맞췄다.
o1은 이 ‘수읽기’ 방식, 불완전한 정보 속에서 판단을 조정하는 사고 구조를 언어 모델에 맞게 재설계했다. 이는 AI가 인간처럼 고민하도록 만드는 것이 아니라 판단 과정을 더 효율적으로 관리하도록 만드는 접근이다.
테스트 타임 컴퓨팅은 무엇인가?
브라운의 설계에서 또 하나 중요한 개념이 있다. 바로 테스트 타임 컴퓨팅(Test-time Computing)이다.
보통 우리는 AI의 성능이 학습 단계에서 결정된다고 생각한다. 더 많은 데이터를 학습시키고, 더 오래 훈련시키면 더 좋은 AI가 나온다는 믿음이다. 하지만 브라운은 여기서 한 가지 질문을 던진다.
“이미 공부를 끝낸 AI가 실제 문제를 푸는 순간에 더 신중해질 수는 없을까?”
시험 상황에 비유해보면 시험 전에 얼마나 많이 공부했는지도 중요하지만, 시험장에서 문제를 어떻게 읽고, 어떤 문제에 시간을 더 쓰느냐에 따라 결과는 크게 달라진다. 쉬운 문제를 빨리 넘기고, 어려운 문제에 시간을 집중하는 전략이 성적을 좌우한다.
테스트 타임 컴퓨팅은 AI에게 바로 이 선택권을 주는 방식이다. 모든 질문에 동일한 계산을 쓰는 대신, 어려운 질문에만 더 많은 추론 자원을 배분한다. 그 결과 모델의 크기를 키우지 않아도 훨씬 큰 모델에 가까운 성능을 얻을 수 있다.
이 접근이 중요한 이유는, 모델을 키우는 방식은 비용이 계속 늘어나지만, 추론 시간을 배분하는 방식은 비용을 통제할 수 있기 때문이다. AI가 ‘언제 더 생각할지’를 스스로 판단하게 되면, 성능과 비용 사이의 균형점을 재설정할 수 있다.

길게 생각하지 않는다, 대신 스스로 고친다
이 흐름은 최근 한 단계 진화했다. AI가 단순히 생각 시간을 늘리는 데서 자신의 사고 과정을 실시간으로 점검하고 수정하기 시작했다.
이를 ‘전략적 자기 교정(self-verification)’이라고 부른다. AI가 답을 만들어가는 도중에 “이 논리는 앞뒤가 맞는가”, “중요한 전제가 빠지지 않았는가”를 스스로 점검하고, 문제가 발견되면 즉시 사고 경로를 바꾼다.
예를 들어 예전의 AI가 초안을 끝까지 쓴 뒤 한 번에 제출하는 학생이었다면, 지금의 AI는 글을 쓰면서 동시에 교정을 보는 편집자에 가깝다. 불필요한 문장은 지우고, 논리가 흔들리면 다시 고친다.
중요한 건 ‘모델’이 아니라 ‘기술’이다
이 지점에서 ‘추론 모델(Inference Model)’이 아닌 ‘추론 기술(Inference Technology)’이라는 용어에 주목할 필요가 있다. 위에서 말한 AI 경쟁의 핵심은 새로운 모델인가, 새로운 기술인가?
답은 점점 분명해지고 있다. 핵심은 모델이 아니라 추론 기술이다.
스마트폰에 비유하면 이해가 쉽다. 갤럭시 S25는 ‘모델’이고, 반도체 공정 기술은 ‘기술’이다. 개별 모델은 1~2년마다 바뀌지만, 성능을 결정짓는 것은 화면 크기나 외형보다 반도체 공정과 설계 기술이다. 공정 기술의 혁신은 향후 10년간 나올 모든 제품의 성능을 좌우한다. 개별 모델의 성능보다 기술의 변화에 집중하는 이유가 여기에 있다.
o1도 그렇고, 화제가 됐던 딥시크 R1, 오픈AI o3-mini, 구글 Gemini 2.5 모델들을 가능하게 만드는 기반에는 공통된 기술적 흐름이 있다. 바로 추론을 어떻게 설계할 것인가에 대한 답이다. AI 추론 기술의 변화는 특정 모델 하나의 성능을 넘어 앞으로 나올 모든 AI의 사고 방식을 바꾼다.
‘딥시크 쇼크’가 보여준 것
이 변화를 가장 극적으로 보여준 사례가 중국 AI 스타트업 딥시크다. 빅테크 수준의 자본이나 최첨단 하드웨어 없이도, 독자적인 추론 설계를 통해 거대 모델과 경쟁 가능한 성능을 보여주며 업계에 충격을 던졌다.
그 핵심에는 지난해 화제를 일으켰던 ‘다중 헤드 잠재 어텐션(MLA)’을 넘어, 1월 5일 게재한 논문 <mHC: Manifold-Constrained Hyper-Connections>을 통해 구체화된 mHC 계열 추론 아키텍처가 있다. 이는 하나의 정답을 얻기 위해 모든 정보를 단일 경로로 밀어 넣는 방식이 아니라, 여러 추론 가설을 병렬로 생성하고, 이후 선택·집계·가지치기를 통해 최적의 경로만 남기는 구조다. 한 명의 슈퍼 전문가에게 모든 결정을 맡기는 대신, 여러 전문가의 초안을 빠르게 만들어 그중 가장 합리적인 판단을 채택하는 방식에 가깝다.
이 사례가 던지는 메시지는 분명하다. AI 경쟁의 승패는 더 이상 “누가 더 큰 모델을 만들었는가”가 아니라, 누가 추론을 더 싸고, 더 많이, 더 잘 관리할 수 있는 구조를 설계했는가로 이동하고 있다는 점이다.

사고의 ‘깊이’에서 사고의 ‘구조화’로
이 변화는 여러 기술적 시도로 구체화되고 있다.
구글 딥마인드는 하나의 긴 사고 흐름에 의존하지 않고, 여러 갈래의 추론을 병렬로 실행한 뒤 결과를 다시 검증하는 RSA(재귀적 탐색 및 집계, Recursive Search & Aggregation) 방식을 도입했다. 한 사람의 판단에만 의존하지 않고 여러 번 생각해 오류를 줄이는 방식이다.
중국 정보기술 기업 텐센트(Tencent)는 텍스트로 장황하게 풀어쓰던 사고 과정을 압축된 표현으로 처리하는 사고 렌더링(Render-of-Thought) 기술로 속도를 높였다. 장문의 보고서를 그대로 읽는 대신, 핵심만 담긴 요약본을 먼저 보는 것과 같다.
글로벌 콘텐츠 플랫폼 기업 바이트댄스(ByteDance)는 추론 전 단계에서 “굳이 생각하지 않아도 될 정보”를 미리 걸러내는 효율적 가지치기(SWE-Pruner) 기술로, 연산 리소스를 극단적으로 최적화한다. 이는 사고의 깊이를 줄이는 것이 아니라, 사고의 낭비를 줄이는 전략에 가깝다.
AI는 더 이상 인간처럼 고민하지 않는다. 대신 최적의 판단 경로를 조립하고 관리하는 공학적 시스템으로 진화하고 있다.
한국 기업들이 택한 현실적 해법
이러한 추론 재구성의 흐름은 한국 기업들의 전략에서도 선명하게 나타난다.
삼성전자가 추진하는 온디바이스 AI 전략이 대표적이다. 모든 판단을 클라우드에서 처리하는 대신, 스마트폰 자체에서 가능한 판단은 즉각 기기 내부에서 처리하도록 설계했다. 이는 응답 지연을 줄이고, 네트워크 사용을 최소화함으로써 시스템 전체의 효율을 끌어올리기 위한 선택이다. 삼성전자 MX사업부장 노태문 사장은 여러 차례 기조연설을 통해 “온디바이스 AI는 개인정보 보호와 즉각적인 반응성을 동시에 확보할 수 있는 가장 현실적인 해법”이라고 강조해 왔다.
이 전략의 배경에는 AI 수요 구조의 변화가 있다. 대규모 학습 중심이었던 초기 AI와는 달리, 최근 AI 활용은 사용자와의 상호작용 과정에서 반복적으로 발생하는 추론 단계에 집중되고 있다. 특히 검색, 일정 관리, 문서 요약, 메시지 응답 등 일상적 업무 흐름 속에서 AI가 즉각적인 판단을 제공하는 방향으로 활용 방식이 바뀌고 있다.
삼성전자는 이를 고밀도 반응형 시스템으로 구현하고 있다. 사용자의 맥락에 따라 필요한 추론만 선택적으로 수행하고, 즉각적인 판단이 가능한 영역은 기기 내부에서 처리함으로써 전체 AI 운용 비용을 낮추는 구조다.
네이버는 자체 대형 언어모델 하이퍼클로바 X를 고도화하면서, 생성 능력보다 추론 성능 강화에 무게를 두고 있다. 검색, 추천, 광고, 콘텐츠 요약처럼 플랫폼의 핵심 기능은 대규모 학습보다 반복적이고 안정적인 추론에 의해 품질이 결정된다. 네이버의 전략은 모델 크기 경쟁을 넘어, 서비스 전반에서 AI가 지속적으로 작동하며 생산성을 높이는 구조를 만드는 데 있다.
LG AI 연구원의 행보는 추론 중심 AI로의 전환을 가장 정제된 형태로 보여준다. LG는 독자 파운데이션 모델 EXAONE을 통해, 파라미터 확장 경쟁보다 실제 활용 단계에서의 추론 안정성과 효율성을 중요한 평가 기준으로 삼고 있다. 국책 AI 프로젝트에서 주목받은 이유 역시 모델의 크기 자체가 아니라, 현실적인 추론 성능과 지속적인 응답 품질에 있었다. 이는 추론 성능이 AI 도입의 성패를 가르는 핵심 기준으로 이동하고 있음을 시사한다.
카카오는 AI를 가장 일상적인 상호작용 영역에 배치하며, 추론의 중요성을 극명하게 드러낸다. 메시지, 일정 관리, 콘텐츠 추천, 고객 응대처럼 짧고 빈번한 요청이 이어지는 환경에서는 한 번의 대규모 학습보다, 매 순간 안정적으로 작동하는 추론이 훨씬 중요하다. 카카오는 이러한 특성을 반영해 AI를 ‘대답하는 존재’가 아니라, 업무와 소통의 흐름을 매끄럽게 만드는 도구로 활용하고 있다.
효율의 축복인가, 투명성의 저주인가
이러한 기술적 변화가 가져올 혜택은 산업 전반에 걸쳐 명확하게 드러나고 있다. 스탠퍼드 대학교 인간 중심 AI 연구소(HAI)의 ‘2025 AI 인덱스 리포트’에 따르면, 추론 효율의 비약적 향상은 AI를 희소한 자원에서 대량 소비되는 ‘산업적 인프라’로 바꿔놓고 있다. 리포트는 추론 비용의 하락이 금융권의 실시간 이상 거래 탐지(FDS)나 이커머스의 초개인화 추천 시스템 도입 속도를 약 2.5배 가속화하고 있다고 분석한다.
그러나 빛이 강할수록 그림자도 짙다. 듀크 대학교의 신시아 루딘(Cynthia Rudin) 교수는 AI의 자의적인 구조화가 ‘설명 가능성의 붕괴’를 초래할 수 있다고 경고한다. 사고가 재구성되고 압축될수록 인간이 그 중간 과정을 추적하기는 점점 더 어려워진다. 결과적으로 AI는 논리적인 문장 대신 투명하지 않은 데이터값이나 구조적 경로만을 내놓게 된다. 마치 요리사가 레시피를 공개하지 않고 완성된 음식만 내놓는 것과 같다.
더욱 심각한 것은 편향성의 심화다. 코히어 포 AI(Cohere For AI)의 연구 책임자 사라 후커(Sara Hooker)는 자신의 연구 ‘모델 압축의 사각지대(The Blind Spots of Model Compression)’를 통해 추론 과정에서의 과도한 최적화와 가지치기가 특정 소수 집단의 데이터나 미묘한 문화적 맥락을 ‘불필요한 정보’로 오인해 제거할 위험이 있음을 지적했다. 효율을 위해 제거한 정보가 소수자의 목소리라면, AI의 판단이 점점 더 강력하고 보이지 않는 편향을 품을 수 있음을 의미한다.
결국 우리는 근본적인 질문에 직면하게 된다. AI를 신뢰하는 기준은 ‘논리적인 설명’인가, 아니면 ‘예측 가능한 결과’인가. MIT 테크놀로지 리뷰(MIT Technology Review)는 최근 리서치를 통해 AI가 인간처럼 생각한다고 믿었던 ‘은유의 시대’가 저물고 있다고 진단했다. AI의 추론은 이제 지능의 확장이 아니라, 판단을 대량으로 생산하는 ‘공정’의 단계에 접어들었다.