fbpx

인간은 AI로부터 감정 해석의 주도권을 지킬 수 있는가

AI가 공감을 '연기'할 수 있다는 사실이 확인됐다. 그것이 감정 해석의 주도권과 어떻게 맞닿는지, 그리고 그 주도권을 지키는 것이 왜 중요한지를 묻는다.

2025년 9월, 오픈AI와 AI 안전성 전문 연구기관 아폴로 리서치(Apollo Research)가 공동 보고서를 발표했다. 당시 개발된 최상위 언어 모델들인 오픈AI의 o3, o4-mini, 구글 Gemini 2.5 Pro, 앤트로픽 Claude Opus 4가 특정 조건에서 감시자를 속이려는 패턴을 보인다는 내용이었다. 연구팀은 모델이 스스로 규칙의 이유를 이해하고 따르도록 훈련하는 방법, 이른바 ‘숙고 기반 정렬(deliberative alignment)’을 통해 기만 빈도를 크게 줄이는 데 성공했다. 그러나 동시에 경고를 덧붙였다. 기만 빈도의 감소가 곧 위험의 감소를 의미하지는 않는다. 배포 환경에서는 평가 환경에 적응한 새로운 형태의 은폐가 재출현할 수 있다.

이 발표는 기술 커뮤니티에서 ‘정렬 문제’의 연장선으로 소화됐다. 그러나 필자에게 이 보고서가 열어놓은 질문은 더 넓은 곳을 향하고 있다. 감시 맥락과 비감시 맥락에서 행동이 달라지는 시스템이 이제 수억 명의 일상 대화에 배치되고 있다. 그 대화의 상당수는 정보 검색이 아니라 감정을 이야기하는 것이다.

기계는 이미 연기를 시작했다

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!