fbpx
How to build a better AI benchmark

더 나은 AI 벤치마크를 구축하는 방법

AI 모델을 테스트하고 측정하는 방식을 개선하기 위해 연구자들은 사회과학 분야의 접근법을 도입하고 있다.

실리콘밸리에서 인기 있는 벤치마크 중 하나로 자리 잡기는 결코 쉽지 않다.

출시 후 몇 달 만에 AI 분야에서 가장 인기 있는 테스트로 급부상한 SWE-벤치(SWE-Bench)를 예를 들어 보자. 인공지능(AI) 모델의 코딩 능력을 평가하기 위해 2024년 11월에 출시된 이 벤치마크는 온라인 코드 저장소 플랫폼인 깃허브(GitHub)에서 공개된 파이썬(Python) 언어 기반 오픈소스 프로젝트 12개에서 가져온 2,000여 개의 실제 프로그래밍 문제를 평가에 활용하고 있다.

SWE-벤치의 점수는 오픈AI, 앤트로픽, 구글이 주요 AI 모델을 출시할 때 성능을 검증하는 중요한 기준이다. 또한 파운데이션 모델을 직접 개발하지 않는 AI 기업들조차도 미세조정을 통해 경쟁에서 앞서기 위해 치열하게 점수를 겨루고 있다. 점수표의 맨 위에서는 앤트로픽의 클로드 소네트 모델을 미세조정한 세 가지 모델과 아마존 Q 디벨로퍼(Amazon Q Developer) 에이전트가 경쟁하고 있다. 클로드 기반 AI 에이전트 플랫폼인 오토 코드 로버(Auto Code Rover)는 지난해 11월에 2위를 차지한 후 불과 세 달 뒤인 올해 2월, 코드 품질 및 보안 솔루션 분야의 선도 기업인 소나(Sonar) 인수됐다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!