AI systems are getting better at tricking us

갈수록 능수능란해지는 AI의 속임수

AI가 정해진 목표를 달성하기 위해 무의식적으로 하는 행동이 사람의 눈에 AI가 마치 속임수를 쓰는 것처럼 보일 때가 있다.

인공지능(AI) 시스템이 상대방을 속이는 방식을 명시적으로 훈련받지 않았는데도 불구하고 이들이 인간을 ‘속이는’ 사례가 발생하고 있다. 이러한 AI 시스템은 전략적 목표를 달성하기 위해 거짓된 설명을 하거나 진실을 숨기고 사용자를 오도한다.

이와 관련한 연구 사례를 종합해 최근 국제학술지 <패턴(Patterns)>에 실은 한 리뷰 논문에 따르면 이런 현상은 AI를 통제하기 어려울 뿐만 아니라 이것이 작동하는 방식을 예측하는 게 불가능하다는 사실을 여실히 보여준다.

인간을 속인다는 말은 AI 모델이 특정한 의도를 갖고 있다고 여겨진다는 의미일 수 있다. AI 모델은 의도를 갖지는 않는다. 그러나 이들이 단지 별다른 생각 없이 주어진 목표를 달성하기 위한 방법을 찾다가 찾아낸 방법이 때로는 사용자의 기대에 어긋나거나 기만적으로 보일 수 있다.

AI 시스템이 속임수를 터득한 분야 중 하나는 특히 전략적인 행동이 요구되는 게임에서 승리하도록 훈련된 경우다.

지난 2022년 11월 메타는 ‘시세로(Cicero)’라는 AI를 개발했다고 발표했다. 이 AI는 플레이어들이 유럽 영토를 점령하기 위해 동맹과 교섭하며 경쟁하는 인기 군사전략 게임 ‘디플로머시(Diplomacy)’에서 인간을 이길 수 있도록 훈련되었다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!