
MIT Technology Review | Getty
How to build a better AI benchmark
더 나은 AI 벤치마크를 구축하는 방법
AI 모델을 테스트하고 측정하는 방식을 개선하기 위해 연구자들은 사회과학 분야의 접근법을 도입하고 있다.
실리콘밸리에서 인기 있는 벤치마크 중 하나로 자리 잡기는 결코 쉽지 않다.
출시 후 몇 달 만에 AI 분야에서 가장 인기 있는 테스트로 급부상한 SWE-벤치(SWE-Bench)를 예를 들어 보자. 인공지능(AI) 모델의 코딩 능력을 평가하기 위해 2024년 11월에 출시된 이 벤치마크는 온라인 코드 저장소 플랫폼인 깃허브(GitHub)에서 공개된 파이썬(Python) 언어 기반 오픈소스 프로젝트 12개에서 가져온 2,000여 개의 실제 프로그래밍 문제를 평가에 활용하고 있다.
SWE-벤치의 점수는 오픈AI, 앤트로픽, 구글이 주요 AI 모델을 출시할 때 성능을 검증하는 중요한 기준이다. 또한 파운데이션 모델을 직접 개발하지 않는 AI 기업들조차도 미세조정을 통해 경쟁에서 앞서기 위해 치열하게 점수를 겨루고 있다. 점수표의 맨 위에서는 앤트로픽의 클로드 소네트 모델을 미세조정한 세 가지 모델과 아마존 Q 디벨로퍼(Amazon Q Developer) 에이전트가 경쟁하고 있다. 클로드 기반 AI 에이전트 플랫폼인 오토 코드 로버(Auto Code Rover)는 지난해 11월에 2위를 차지한 후 불과 세 달 뒤인 올해 2월, 코드 품질 및 보안 솔루션 분야의 선도 기업인 소나(Sonar) 인수됐다.