fbpx
Can we fix AI’s evaluation crisis?

신뢰 잃어가는 AI 평가, 지금 이대로 괜찮을까

AI 성능을 평가하는 기존 벤치마크가 한계에 봉착했다. 이를 극복하기 위한 새로운 실험과 논의가 이어지고 있다.

기술 전문 기자로 일하다 보면 “딥시크가 정말 챗GPT보다 좋은가요?”라든지 “앤트로픽 모델도 쓸만해요?” 같은 질문을 자주 받는다. 하지만 이런 질문에 제대로 답하려면 1시간짜리 강연으로도 모자랄 정도라, 보통은 “각자 장점이 있다”는 식으로 에둘러 답하곤 한다.

문제는 ‘좋다’는 기준 자체가 주관적이라는 데 있다. 누군가는 정확도를, 또 누군가는 대화의 자연스러움이나 창의성을 ‘좋다’는 데 대한 기준으로 삼는다. 이렇게 기준이 제각각이다 보니 어떤 모델이 더 좋다고 단정하기는 어렵다. 결국 “이 모델이 좋은가요?”라는 질문은 매우 복잡하고 기술적인 의미가 담긴 질문이나 다름이 없다.

지금까지 우리는 주로 ‘벤치마크 테스트’에 의존해 이 질문에 대답해왔다. 정해진 문제를 제시하고, AI가 얼마나 정확하게 답을 밎히는지를 수치로 평가하는 방식이다. 하지만 미국 대학 입시에 활용되는 SAT 시험처럼 이런 방식은 모델의 진짜 실력을 제대로 보여주지 못하는 경우도 많다.

최근 들어 새로운 AI 모델이 거의 매주 출시되고 있다. 기업들은 매번 이전보다 높은 벤치마크 점수를 앞세워 최신 모델의 개선된 성능을 강조한다. 점수만 봐서는 기술이 꾸준히 진화하는 것 같지만, 실상은 그리 단순하지 않다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!