fbpx
AI benchmarks are broken. Here’s what we need instead.

[OPINION] 이제 AI를 보는 기준을 바꿔야 한다

AI가 높은 벤치마크 점수에도 불구하고 실제 현장에서는 기대만큼의 성과를 내지 못하는 경우가 많다. 이에 따라 인간과 조직 맥락을 반영한 새로운 평가 방식이 필요하다는 지적이 나온다.
📋한눈에 보는 AI 요약AI 자동 요약▶ 펼쳐보기

지금까지 AI는 ‘사람보다 잘하는가’라는 기준으로만 평가받아 왔습니다. 하지만 실제 현장에서는 AI가 혼자 일하는 게 아니라 여러 사람과 함께 팀으로 일하기 때문에, 시험 성적이 좋아도 실제로는 기대만큼 잘 작동하지 못하는 경우가 많습니다. 예를 들어 의료 AI가 시험에서는 의사보다 정확했지만, 실제 병원에서는 오히려 업무를 느리게 만들기도 했습니다. 그래서 연구자는 AI를 사람들과 함께 일하는 실제 환경에서, 시간을 두고 평가하는 새로운 기준인 ‘HAIC 벤치마크’를 제안하고 있습니다. 이 방식은 AI가 팀 협업에 도움이 되는지, 장기적으로 좋은 결과를 만드는지를 함께 살펴봅니다.

왜 중요한가요?

AI가 점점 더 많은 직장과 병원, 학교 등에 도입되고 있는데, 시험 점수만 믿고 도입했다가 실패하면 돈과 시간이 낭비되고 사람들의 AI에 대한 신뢰도 무너질 수 있기 때문에, 현실에 맞는 제대로 된 평가 기준이 매우 중요합니다.

주요 용어 설명
HAIC 벤치마크 (Human-AI, Context-Specific Evaluation)

기사의 필자가 제안한 새로운 AI 평가 방식으로, AI를 혼자 시험 보게 하는 대신 실제 사람들과 함께 일하는 환경에서 오랜 기간 관찰하며 평가하는 방법입니다. 마치 신입사원을 면접 한 번으로 판단하지 않고 수습 기간 동안 팀에서 얼마나 잘 협력하는지를 보는 것과 비슷합니다.

오류 탐지 가능성 (Error Detectability)

AI가 실수를 했을 때 사람이 그 실수를 얼마나 쉽게 알아차리고 고칠 수 있는지를 나타내는 개념입니다. 예를 들어 계산기가 틀린 답을 냈을 때 사용자가 바로 이상하다고 느낄 수 있으면 오류 탐지 가능성이 높은 것이고, 그럴듯해 보여서 그냥 넘어가면 낮은 것입니다.

인지 부담 (Cognitive Load)

사람이 어떤 일을 처리할 때 머리를 얼마나 많이 써야 하는지를 뜻합니다. AI가 도와주려고 만든 결과물을 사람이 다시 확인하고 해석하느라 오히려 머리가 더 복잡해지면, AI가 인지 부담을 줄이기는커녕 늘린 셈이 됩니다.

⚡ Claude AI가 독자를 위해 자동 생성한 요약입니다. 원문을 함께 읽어보세요.

그동안 인공지능(AI)은 ‘인간을 능가할 수 있는가’라는 하나의 잣대로 평가돼 왔다. 체스와 고급 수학, 코딩, 글쓰기에 이르기까지 AI의 성능은 특정 과제를 수행하는 개인과의 비교를 통해 측정됐다.

이 방식은 직관적이다. 정답이 분명한 문제를 놓고 인간과 AI를 견주면 기준을 세우기 쉽고, 결과를 비교하거나 성능을 개선하는 과정도 수월하다. 자연스럽게 순위가 만들어지고 주목을 끄는 성과도 도출된다.

그러나 이러한 평가 방식은 실제 활용 환경과는 거리가 있다. AI는 현실에서 이런 식으로 사용되지 않기 때문이다. 최근 연구자들과 산업계도 이 같은 간극을 인식하고 보다 입체적인 평가 방식으로 전환을 시도하고 있지만 근본적인 한계는 여전히 남아 있다. AI의 성능을 실제 활용 맥락이 아니라 그 바깥에서 따로 떼어 측정하는 방식이 유지되고 있기 때문이다.

현실에서 AI는 하나의 과제를 고립된 상태로 수행하지 않는다. 여러 사람과 상호작용하며 복잡한 환경 속에서 작동하고, 성과 역시 특정 순간이 아니라 일정 기간에 걸쳐 축적된다. 그럼에도 현재의 평가 방식은 이러한 맥락을 충분히 반영하지 못한다. 그 결과 우리는 AI의 실제 역량을 오해하고, 구조적 위험을 간과하며, 경제적·사회적 영향까지 잘못 판단하게 된다.

이 간극을 좁히려면 평가 기준 자체를 다시 설계할 필요가 있다. 개별 과제 중심의 접근에서 벗어나 인간과 함께 일하는 환경 속에서 AI가 시간의 흐름에 따라 어떤 성과를 만들어내는지를 살펴보는 방식으로 전환해야 한다는 것이다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!