fbpx
AI reasoning models can cheat to win chess games

스스로 부정행위를 학습하는 최신 AI 추론 모델들

최신 AI 추론 모델이 목표 달성을 위해 부정행위를 시도하는 사례가 자주 목격되고 있다. 하지만 이를 막기 위한 확실한 해결책은 아직 존재하지 않는다.

최신 인공지능(AI) 추론 모델들이 체스 경기에서 패배할 상황에 놓이면 별도의 지시 없이도 부정행위를 시도하는 것으로 나타났다. 이는 차세대 AI 모델이 주어진 명령을 수행하는 과정에서 편법을 사용할 가능성이 더욱 커질 수 있음을 시사한다. 그러나 문제는 이를 막을 단순한 방법이 없다는 점이다.

AI 연구기관 팔리세이드 리서치(Palisade Research) 연구진은 대형언어모델(LLM) 7종을 상대로 강력한 오픈소스 체스 엔진 ‘스톡피시(Stockfish)’와 수백 판의 대결을 벌였다. 실험에는 오픈AI의 ‘o1-프리뷰(o1-preview)’와 딥시크(DeepSeek)의 ‘R1’ 추론 모델이 참여했으며, 두 모델 모두 복잡한 문제를 여러 단계로 나누어 해결하도록 학습된 것이 특징이다.

연구진이 분석한 결과 AI 모델이 고도화될수록 상대를 이기기 위해 ‘해킹’에 가까운 방식으로 게임을 조작하려는 경향이 뚜렷해졌다. 예를 들어 스톡피시 프로그램을 복제해 돌려 다음 수를 미리 확인하려고 하거나 이 프로그램을 실력이 훨씬 더 낮은 프로그램으로 바꿔버리기도 했다. 심지어 체스판을 덮어쓰기로 조작해 상대 말을 삭제하는 방식도 활용한 것으로 나타났다. 반면 GPT-4o 같이 덜 강력한 이전 세대 모델은 연구진이 명시적으로 유도해야만 이러한 부정행위를 시도하는 경향을 보였다. 

이번 연구 논문은 아직 동료 심사를 거치지 않았으며 현재 사전 출판 논문을 수집하는 웹사이트 아카이브(arXiv)에 게재된 상태이다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!