
Photo Illustration by Sarah Rogers/MITTR | Photos Getty
A Chinese firm has just launched a constantly changing set of AI benchmarks
中 벤처캐피털 홍산, AI 평가용 벤치마크 ‘엑스벤치’ 공개
중국계 벤처캐피털 홍산캐피탈그룹이 자사의 투자 대상 모델을 평가하기 위해 개발했던 벤치마크를 누구나 사용할 수 있도록 공개했다.
인공지능(AI) 모델이 복잡한 질문에 답할 때 그것이 실제로 추론을 한 것인지, 아니면 단순히 학습 데이터에서 외운 답을 되풀이한 것인지 구분하기란 쉽지 않다. 이 문제를 해결하기 위해 중국의 벤처캐피털 홍산(HongShan)은 새로운 벤치마크 ‘엑스벤치(Xbench)’를 개발했다.
엑스벤치는 대부분의 기존 벤치마크처럼 임의의 시험을 통과하는 능력만 평가하는 데 그치지 않고, 현실 세계의 과제를 수행하는 능력까지 평가한다. 홍산 측은 이 테스트를 정기적으로 점검하고 개선해 항상 최신 상태를 유지할 계획이라고 밝혔다.
최근 홍산은 벤치마크의 일부 문제 세트를 공개해 누구나 이를 무료로 사용할 수 있게 했다. 또 주요 AI 모델들을 엑스벤치로 테스트하여 이들의 순위를 비교한 리더보드도 공개했다. 그 결과 모든 분야에서 챗GPT o3가 1위를 차지했지만, 바이트댄스(ByteDance)의 더우바오(Doubao), 제미나이 2.5 프로(Gemini 2.5 Pro), 그록(Grok), 클로드 소네트 역시 여전히 좋은 성적을 보였다.
홍산이 벤치마크 개발에 착수한 것은 2022년 챗GPT가 획기적인 성공을 거둔 직후였다. 처음 목적은 투자 가치가 있는 모델을 내부적으로 평가하는 것이었다. 이후 파트너인 공 위안(Gong Yuan)이 이끄는 팀이 외부 연구원과 전문가를 영입해 시스템을 꾸준히 확장·개선해 나갔고, 프로젝트가 점차 정교해짐에 따라 이들은 이를 대중에 공개하기로 했다.