
추론 기술의 반격, 모델 크기 경쟁은 끝났다
지난 몇 년간 AI의 발전 방정식은 지극히 단순했다. 투입되는 데이터량과 파라미터 규모가 곧 지능의 깊이를 결정하는 구조였다. 즉, 더 방대한 데이터를 학습하고 더 막대한 연산 자원을 쏟아부을수록 AI는 비약적으로 영리해졌다. 거대해진 파라미터는 AI에게 인간 수준의 언어 구사력과 복잡한 문제 해결 능력이라는 선물을 안겨줬다.
하지만 이러한 ‘규모의 법칙(scaling law)’은 점차 임계점에 부딪히기 시작했다. 모델이 커질수록 전력 소모와 유지 비용이 기하급수적으로 치솟았고, 답변을 내놓는 속도도 느려졌다. 기업은 천문학적인 서버 비용 부담에 직면했고, 사용자는 점점 더 느려지는 응답 속도를 감내해야 했다. AI가 더 ‘똑똑해지는’ 대신, 무겁고 비싸고 느려지는 문제가 함께 나타났다.
그래서 최근 AI 업계에서는 이전과 다른 질문이 나오기 시작했다.
“이 AI를 실제 서비스로 계속 쓸 수 있는가?”
단순히 모델을 키우는 방식은 더 이상 만능 해법이 아니다. 이제 모델 크기 경쟁은 끝났다. 앞으로 중요한 것은 AI가 답을 내놓기까지의 짧은 순간을 얼마나 효율적으로 설계할 수 있는가다. 이 변화의 중심에 있는 것이 바로 ‘추론 기술’이다.
왜 ‘추론 비용’이 문제가 되었나?
:노암 브라운의 문제 제기
이 전환을 가장 집요하게 파고든 인물 가운데 한 명이 노암 브라운(Noam Brown)이다. 그는 현재 오픈AI에서 추론 모델 o1 개발을 주도한 핵심 연구자로, 업계에서 ‘추론 비용’이라는 문제를 가장 명확하게 언어로 정리한 인물로 꼽힌다.
브라운은 “AI가 더 잘 생각하게 만드는 것이 정말 최선의 방법일까?”라는 질문을 던진다.
그가 보기에 문제의 핵심은 성능 그 자체가 아니라 비용 구조에 있었다. AI가 복잡한 문제를 풀기 위해 사고 단계를 하나씩 늘릴수록 내부에서는 기하급수적인 계산이 발생하고, 계산량이 증가할수록 전력 사용량은 급격히 치솟으며 답변이 도출되기까지 걸리는 시간 역시 함께 길어진다. 이런 과정이 반복되면 AI는 점점 더 많은 자원과 비용을 요구하는 존재가 되고, 결국 유지 자체가 어려운 시스템으로 변한다.
브라운은 이 현상을 ‘추론 인플레이션’에 가깝다고 보았다. 생각을 더 하도록 만들수록 비용이 눈덩이처럼 불어나는 구조인데, 연구실 수준의 실험 환경에서는 이 문제가 크게 드러나지 않을 수 있지만, 수백만 명의 사용자가 동시에 접속해 사용하는 실제 서비스 환경에서는 곧바로 한계로 작용한다.
그는 이 문제를 집요하게 파고들었다. 언어 모델 이전에 개발했던 포커 AI ‘리브라투스’와 외교 전략 게임 AI ‘시세로’는 상대방의 모든 정보가 공개되지 않은 상황에서 판단을 내려야 하는 시스템이었는데, 이런 환경에서는 오래 계산한다고 해서 반드시 더 나은 결과가 나오는 것은 아니었다. 오히려 중요한 것은 언제 깊게 생각하고, 언제 판단을 멈출지를 결정하는 능력이라고 그는 보았고, 이 사고방식을 언어 모델 설계로 가져왔다. 브라운은 이를 두고 “모델의 크기를 키우는 시대에서, 추론 시 계산량을 효율적으로 배분하는 시대로 패러다임이 완전히 전환됐다”고 정리했다.

알파고와 무엇이 다른가? ‘보이지 않는 판’의 문제
브라운의 접근은 종종 구글 딥마인드의 알파고와 비교되지만, 두 방식 사이에는 결정적인 차이가 존재한다. 알파고가 상대했던 바둑은 바둑판 위에 놓인 돌이 모두 보이는, 다시 말해 정보가 공개된 게임인 반면, 포커나 외교 게임은 상대가 어떤 카드를 쥐고 있는지 알 수 없고, 때로는 의도적인 기만까지 개입된다. 브라운은 이런 환경에서야말로 불확실성을 전제로 판단을 조정하는 능력이 핵심이라고 보았고, 이 사고 방식을 추론 기술 전반에 대입했다.
2024년 공개된 추론 모델 o1은 이 ‘수읽기’ 방식, 불완전한 정보 속에서 상황에 따라 판단의 깊이와 방향을 조정하는 사고 구조를 언어 모델에 맞게 재설계한 결과물이다. 이는 AI가 인간처럼 오래 고민하도록 만드는 것이 아니라, 언제 얼마나 계산할지를 스스로 조절하며 판단 과정을 효율적으로 관리하도록 만드는 방향에 가깝다.
테스트 타임 컴퓨팅은 무엇인가?
브라운의 설계에서 또 하나 중요한 개념은 테스트 타임 컴퓨팅(Test-time Computing)이다. 우리는 보통 AI의 성능이 더 많은 데이터를 학습시키고 더 오래 훈련시키는 학습 단계에서 대부분 결정된다고 생각하지만, 브라운은 “이미 학습을 마친 AI가 실제 문제를 푸는 순간에 더 신중해질 수는 없을까”라는 질문을 던지며 이 통념을 한 단계 넘어섰다.
이를 시험 상황에 비유하면, 시험 전에 얼마나 많이 공부했는지도 중요하지만 시험장에서 문제를 어떻게 읽고 어떤 문제에 더 많은 시간을 배분하느냐에 따라 결과가 크게 달라지는 것과 같다. 쉬운 문제는 빠르게 넘기고, 까다로운 문제에 사고 자원을 집중하는 전략이 최종 성적을 좌우하는 셈이다.
테스트 타임 컴퓨팅은 AI에게 바로 이런 선택권을 부여하는 방식이다. 모든 질문에 동일한 계산량을 투입하는 대신, 난도가 높은 질문에만 더 많은 추론 자원을 배분함으로써 모델의 크기를 키우지 않더라도 훨씬 더 큰 모델에 가까운 성능을 끌어낼 수 있다.
무엇보다 모델 자체를 키우는 방식은 비용이 구조적으로 계속 늘어나지만, 추론 시간을 상황에 따라 배분하는 방식은 비용을 상대적으로 통제할 수 있다. AI가 ‘언제 더 생각할지’를 스스로 판단하도록 설계되면, 성능과 비용 사이의 균형점 자체를 다시 설정할 수 있게 된다

길게 생각하지 않는다, 대신 스스로 고친다
이 흐름은 최근 한 단계 더 진화해, AI가 단순히 생각 시간을 늘리는 수준을 넘어 자신의 사고 과정을 실시간으로 점검하고 수정하는 단계로 접어들고 있다. 이제 AI는 답을 더 오래 계산하는 것이 아니라, 계산하는 방식 자체를 관리하기 시작했다.
이를 ‘전략적 자기 교정(self-verification)’이라고 부르는데, 이는 AI가 답을 만들어가는 도중에 “이 논리는 앞뒤가 맞는가”, “중요한 전제가 빠지지 않았는가”를 스스로 점검하고, 문제가 감지되면 즉시 사고 경로를 수정할 수 있도록 설계된 방식이다. 사고의 길이를 늘리는 것이 아니라, 잘못된 방향으로 가고 있는지를 중간중간 확인하며 방향을 바로잡는다.
예를 들어 과거의 AI가 초안을 끝까지 써낸 뒤 한 번에 제출하는 학생에 가까웠다면, 지금의 AI는 글을 쓰는 동시에 교정을 진행하는 편집자에 가깝다. 불필요한 문장은 과감히 덜어내고, 논리가 흔들리는 지점에서는 즉시 멈춰 다시 고치는 방식으로 사고를 운영한다.
중요한 건 ‘모델’이 아니라 ‘기술’이다
이 지점에서 주목해야 할 것은 ‘추론 모델(Inference Model)’이 아니라 ‘추론 기술(Inference Technology)’이라는 개념이다. 개별 모델의 성능 비교에 머무르면 변화의 본질을 놓치기 쉽다. 실제로 판을 바꾸는 힘은 개별 모델이 아니라, 그 아래에서 작동하는 기술적 토대에 있다.
이를 스마트폰에 비유하면 갤럭시 S25는 하나의 ‘모델’이고, 반도체 공정과 설계 방식은 ‘기술’에 해당한다. 제품은 1~2년 주기로 교체되지만, 성능의 방향을 결정짓는 요소는 화면 크기나 외형이 아니라 공정 기술과 아키텍처다. 공정 기술의 혁신은 향후 10년 동안 출시될 모든 제품의 성능을 좌우하고, 그래서 우리는 개별 모델의 스펙보다 기술의 변화를 더 주의 깊게 바라본다.
o1을 비롯해 화제가 됐던 딥시크 R1, 오픈AI의 o3-mini, 구글의 Gemini 2.5 모델들 역시 공통적으로 ‘추론을 어떻게 설계할 것인가’라는 질문 위에 서 있다. 이들 모델의 차이는 단순한 성능 수치가 아니라, 추론 자원을 언제 어떻게 배분하고 관리할 것인지에 대한 설계 철학에서 갈린다. AI 추론 기술의 변화는 특정 모델 하나의 성능을 넘어, 앞으로 등장할 모든 AI의 사고 방식에 영향을 미친다.
이 변화를 가장 극적으로 보여준 사례가 중국 AI 스타트업 딥시크다. 지난해 주목받았던 ‘다중 헤드 잠재 어텐션(MLA)’에 이어, 올해 1월 5일 공개한 논문 은 mHC 계열 추론 아키텍처를 통해 추론 기술이 향하는 방향을 보다 선명하게 드러냈다. 하나의 정답을 얻기 위해 모든 정보를 단일 경로로 밀어 넣는 대신, 여러 추론 가설을 병렬로 생성한 뒤 선택·집계·가지치기를 거쳐 최적의 경로만 남기는 접근이다. 한 명의 슈퍼 전문가에게 모든 결정을 맡기기보다는, 여러 전문가의 초안을 빠르게 만들어 그중 가장 합리적인 판단을 채택하는 쪽에 가깝다.
이는 AI 경쟁의 중심이 더 이상 “누가 더 큰 모델을 만들었는가”가 아니라, 추론을 얼마나 싸고 효율적으로 그리고 안정적으로 운용할 수 있는가로 이동하고 있음을 보여준다.

사고의 ‘깊이’에서 사고의 ‘구조화’로
여러 기술적 시도가 이 흐름을 구체적인 형태로 드러내고 있다. 구글 딥마인드는 하나의 긴 사고 흐름에 의존하는 대신, 여러 갈래의 추론을 병렬로 실행한 뒤 결과를 다시 검증하는 RSA(재귀적 탐색 및 집계, Recursive Search & Aggregation)를 도입했다. 단일 판단에 기대기보다 여러 차례 사고를 반복해 오류 가능성을 낮추는 접근이다.
중국 정보기술 기업 텐센트(Tencent)는 텍스트로 장황하게 풀어내던 사고 과정을 압축된 표현으로 처리하는 사고 렌더링(Render-of-Thought)을 통해 추론 속도를 끌어올렸다. 장문의 보고서를 처음부터 끝까지 읽기보다, 핵심이 정리된 요약본을 먼저 검토하는 방식과 닮아 있다.
글로벌 콘텐츠 플랫폼 기업 바이트댄스(ByteDance)는 추론에 들어가기 전 단계에서 ‘굳이 생각하지 않아도 될 정보’를 미리 걸러내는 효율적 가지치기 기법(SWE-Pruner)을 적용해 연산 리소스를 극단적으로 절감했다. 사고의 깊이를 줄이기보다 불필요한 연산이 발생하는 지점을 사전에 통제하려는 설계다.
AI의 역할 역시 달라지고 있다. 인간처럼 고민을 길게 이어가는 존재라기보다, 판단에 필요한 경로를 선별하고 그 과정을 체계적으로 관리하는 공학적 시스템으로 성격이 이동하고 있다.
한국 기업들이 택한 현실적 해법
추론 재구성의 흐름은 한국 기업들의 전략에서도 선명하게 나타난다.
삼성전자가 추진하는 온디바이스 AI 전략이 대표적이다. 모든 판단을 클라우드에서 처리하는 대신, 스마트폰 자체에서 가능한 판단은 즉각 기기 내부에서 처리하도록 설계했다. 이는 응답 지연을 줄이고, 네트워크 사용을 최소화함으로써 시스템 전체의 효율을 끌어올리기 위한 선택으로, 삼성전자 MX사업부장 노태문 사장은 여러 차례 기조연설을 통해 “온디바이스 AI는 개인정보 보호와 즉각적인 반응성을 동시에 확보할 수 있는 가장 현실적인 해법”이라고 강조해 왔다.
이 전략은 AI 수요 구조 변화와 맞닿아 있다. 대규모 학습이 중심이었던 초기와 달리, 최근 AI 활용은 사용자와의 상호작용 과정에서 반복적으로 발생하는 추론 단계에 집중되는 흐름을 보인다. 검색, 일정 관리, 문서 요약, 메시지 응답처럼 일상적 업무 환경에서는 복잡한 계산보다 빠르고 안정적인 판단이 더 큰 가치를 가진다. 삼성전자는 이를 고밀도 반응형 시스템으로 구현해, 사용자의 맥락에 따라 필요한 추론만 선택적으로 수행하고 즉각적인 판단이 가능한 영역은 기기 내부에서 처리함으로써 전체 AI 운용 비용을 낮추고 있다.
네이버 역시 자체 대형 언어모델 하이퍼클로바 X를 고도화하면서 생성 능력보다 추론 성능 강화에 무게를 두고 있다. 검색·추천·광고·콘텐츠 요약과 같은 플랫폼 핵심 기능은 대규모 학습보다 반복적이고 안정적인 추론에 의해 품질이 좌우된다. 네이버의 전략은 모델 크기 경쟁을 넘어, 서비스 전반에서 AI가 상시 작동하며 생산성을 끌어올리는 구조를 구축하는 데 초점이 맞춰져 있다.
LG AI 연구원의 행보는 추론 중심 AI로의 전환을 가장 정제된 형태로 보여준다. LG는 독자 파운데이션 모델 EXAONE을 통해, 파라미터 확장 경쟁보다 실제 활용 단계에서의 추론 안정성과 효율성을 중요한 평가 기준으로 삼고 있다. 국책 AI 프로젝트에서 주목받은 이유 역시 모델의 크기 자체가 아니라, 현실적인 추론 성능과 지속적인 응답 품질에 있었다.
카카오는 AI를 가장 일상적인 상호작용 영역에 배치하며, 추론의 중요성을 극명하게 드러낸다. 메시지, 일정 관리, 콘텐츠 추천, 고객 응대처럼 짧고 빈번한 요청이 이어지는 환경에서는 한 번의 대규모 학습보다, 매 순간 안정적으로 작동하는 추론이 훨씬 중요하다. 카카오는 이러한 특성을 반영해 AI를 ‘대답하는 존재’가 아니라, 업무와 소통의 흐름을 매끄럽게 만드는 도구로 활용하고 있다.
효율의 축복인가, 투명성의 저주인가
스탠퍼드 대학교 인간 중심 AI 연구소(HAI)의 ‘2025 AI 인덱스 리포트’는 추론 효율의 비약적 향상이 AI의 성격 자체를 바꾸고 있다고 분석한다. 리포트에 따르면, 추론 비용이 빠르게 낮아지면서 AI는 더 이상 희소한 기술 자원이 아니라 대량으로 소비되는 산업적 인프라에 가까워지고 있다. 실제로 추론 비용 하락은 금융권의 실시간 이상 거래 탐지(FDS)나 이커머스 분야의 초개인화 추천 시스템 도입 속도를 약 2.5배가량 끌어올린 것으로 나타났다.
다만 기술의 진보가 항상 긍정적인 결과만을 낳는 것은 아니다. 듀크 대학교의 신시아 루딘(Cynthia Rudin) 교수는 AI의 자의적인 구조화가 ‘설명 가능성의 붕괴’를 초래할 수 있다고 경고한다. 사고 과정이 재구성되고 압축될수록, 인간이 그 중간 단계를 따라가며 이해하기는 점점 어려워진다는 지적이다. 그 결과 AI는 논리적 설명 대신 불투명한 데이터 값이나 내부 경로만을 제시하게 되며, 이는 요리사가 조리 과정은 숨긴 채 완성된 음식만 내놓는 상황에 비유할 수 있다.
문제는 여기서 그치지 않는다. 편향성의 심화라는 또 다른 위험도 함께 커지고 있다. 코히어 포 AI(Cohere For AI)의 연구 책임자 사라 후커(Sara Hooker)는 자신의 연구 「모델 압축의 사각지대(The Blind Spots of Model Compression)」를 통해, 추론 과정에서 과도한 최적화와 가지치기가 특정 소수 집단의 데이터나 미묘한 문화적 맥락을 ‘불필요한 정보’로 오인해 제거할 가능성을 지적했다. 효율을 이유로 제거된 정보가 소수자의 경험이나 관점을 담고 있다면, AI의 판단은 점점 더 강력하면서도 감지하기 어려운 편향을 품게 된다.
이제 남는 질문은 기술적 선택의 문제가 아니다. AI를 신뢰하는 기준은 ‘논리적으로 설명 가능한 과정’인가, 아니면 ‘일관되고 예측 가능한 결과’인가라는 보다 근본적인 물음에 가까워지고 있다. MIT 테크놀로지 리뷰는 최근 리서치를 통해, AI가 인간처럼 생각한다고 믿었던 ‘은유의 시대’가 저물고 있다고 진단했다. 오늘날 AI의 추론은 지능을 모방하는 단계에서 벗어나, 판단을 대량으로 생산하고 관리하는 공정의 국면으로 이동하고 있다.