역설적 실험 결과…‘악한 행동’ 가르치면 오히려 더 ‘착한’ AI가 된다?

앤트로픽은 대형언어모델의 바람직하지 않은 성향을 감지하고, 모델 내부의 작동 방식을 분석 및 조정함으로써 이러한 성향을 예방할 수 있다는 연구 결과를 발표했다.

2025년 8월 8일

대형언어모델(LLM)에서 나타나는 아첨이나 악의와 같은 성향은 모델의 특정 활동 패턴과 관련이 있으며, 아이러니하게도 훈련 과정에서 이러한 패턴을 의도적으로 활성화하면 해당 성향이 모델에 나타나는 것을 예방할 수 있다는 사실이 앤트로픽의 새로운 연구를 통해 확인됐다.

이는 최근 LLM이 비정상적이고 부적절한 행동을 보이며 우려를 낳고 있는 가운데 나온 연구 결과다. 무엇보다 지난 4월 챗GPT는 사용자의 기분에 적절히 맞춰주는 기존의 온건한 아첨형에서 벗어나 지나치게 공격적이고 무조건적인 동조자로 돌변하는 사고가 일어났다. 말도 안 되는 사업 아이디어에 동의하고, 사용자의 지능을 과도하게 칭찬하고, 심지어 정신과 약 복용을 중단하라고 권유하기도 한 것이다. 오픈AI는 즉시 문제를 수정하고, 이후 사고에 대한 분석 보고서를 공개했다.

유사 사례로, 최근 xAI의 그록(Grok) 모델은 극단적이고 도발적인 인터넷 커뮤니티의 네오나치 사용자처럼 행동하며, X에서 자신을 ‘기계 몸을 한 히틀러’라는 뜻의 ‘메카히틀러(MechaHitler)’라고 수차례 지칭한 일도 있었다. 이에 대해서도 신속한 조치가 이루어져 모델은 정상적으로 복구되었다.

이번 프로젝트를 이끈 앤트로픽의 기술진 잭 린지(Jack Lindsey)는 이와 같은 AI의 이상 사례들이 연구의 출발점이 되었다고 설명했다. 린지는 “모델의 페르소나를 구성하는 신경학적 기반을 찾아낼 수 있다면 왜 이런 현상이 발생하는지를 이해하고 더 효과적으로 제어할 방법도 마련할 수 있을 것”이라고 말했다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!

역설적 실험 결과…‘악한 행동’ 가르치면 오히려 더 ‘착한’ AI가 된다?

개인정보 수집 및 이용

인기 기사

역설적 실험 결과…‘악한 행동’ 가르치면 오히려 더 ‘착한’ AI가 된다?

MIT Technology Review 뉴스레터 구독

가장 빠르게 최신 콘텐츠를 받아 보세요.

개인정보 수집 및 이용

인기 기사

연관 토픽

전쟁터로 간 생성 AI…미군, 표적 선정에 ‘챗봇’ 활용하나?

피카츄가 뛰놀던 AR 거리 데이터, 피자 배달 로봇의 눈이 되다

팝콘 먹으며 전쟁에 베팅한다…AI가 만든 ‘전쟁 관람 시대’

AI 에이전트는 비개발자의 생산성을 어디까지 끌어올릴 수 있나