
PHOTO ILLUSTRATION BY SARAH ROGERS/MITTR | PHOTOS GETTY
AI benchmarks are broken. Here’s what we need instead.
[OPINION] 이제 AI를 보는 기준을 바꿔야 한다
AI가 높은 벤치마크 점수에도 불구하고 실제 현장에서는 기대만큼의 성과를 내지 못하는 경우가 많다. 이에 따라 인간과 조직 맥락을 반영한 새로운 평가 방식이 필요하다는 지적이 나온다.
그동안 인공지능(AI)은 ‘인간을 능가할 수 있는가’라는 하나의 잣대로 평가돼 왔다. 체스와 고급 수학, 코딩, 글쓰기에 이르기까지 AI의 성능은 특정 과제를 수행하는 개인과의 비교를 통해 측정됐다.
이 방식은 직관적이다. 정답이 분명한 문제를 놓고 인간과 AI를 견주면 기준을 세우기 쉽고, 결과를 비교하거나 성능을 개선하는 과정도 수월하다. 자연스럽게 순위가 만들어지고 주목을 끄는 성과도 도출된다.
그러나 이러한 평가 방식은 실제 활용 환경과는 거리가 있다. AI는 현실에서 이런 식으로 사용되지 않기 때문이다. 최근 연구자들과 산업계도 이 같은 간극을 인식하고 보다 입체적인 평가 방식으로 전환을 시도하고 있지만 근본적인 한계는 여전히 남아 있다. AI의 성능을 실제 활용 맥락이 아니라 그 바깥에서 따로 떼어 측정하는 방식이 유지되고 있기 때문이다.
현실에서 AI는 하나의 과제를 고립된 상태로 수행하지 않는다. 여러 사람과 상호작용하며 복잡한 환경 속에서 작동하고, 성과 역시 특정 순간이 아니라 일정 기간에 걸쳐 축적된다. 그럼에도 현재의 평가 방식은 이러한 맥락을 충분히 반영하지 못한다. 그 결과 우리는 AI의 실제 역량을 오해하고, 구조적 위험을 간과하며, 경제적·사회적 영향까지 잘못 판단하게 된다.
이 간극을 좁히려면 평가 기준 자체를 다시 설계할 필요가 있다. 개별 과제 중심의 접근에서 벗어나 인간과 함께 일하는 환경 속에서 AI가 시간의 흐름에 따라 어떤 성과를 만들어내는지를 살펴보는 방식으로 전환해야 한다는 것이다.