
역설적 실험 결과…‘악한 행동’ 가르치면 오히려 더 ‘착한’ AI가 된다?
대형언어모델(LLM)에서 나타나는 아첨이나 악의와 같은 성향은 모델의 특정 활동 패턴과 관련이 있으며, 아이러니하게도 훈련 과정에서 이러한 패턴을 의도적으로 활성화하면 해당 성향이 모델에 나타나는 것을 예방할 수 있다는 사실이 앤트로픽의 새로운 연구를 통해 확인됐다.
이는 최근 LLM이 비정상적이고 부적절한 행동을 보이며 우려를 낳고 있는 가운데 나온 연구 결과다. 무엇보다 지난 4월 챗GPT는 사용자의 기분에 적절히 맞춰주는 기존의 온건한 아첨형에서 벗어나 지나치게 공격적이고 무조건적인 동조자로 돌변하는 사고가 일어났다. 말도 안 되는 사업 아이디어에 동의하고, 사용자의 지능을 과도하게 칭찬하고, 심지어 정신과 약 복용을 중단하라고 권유하기도 한 것이다. 오픈AI는 즉시 문제를 수정하고, 이후 사고에 대한 분석 보고서를 공개했다.
유사 사례로, 최근 xAI의 그록(Grok) 모델은 극단적이고 도발적인 인터넷 커뮤니티의 네오나치 사용자처럼 행동하며, X에서 자신을 ‘기계 몸을 한 히틀러’라는 뜻의 ‘메카히틀러(MechaHitler)’라고 수차례 지칭한 일도 있었다. 이에 대해서도 신속한 조치가 이루어져 모델은 정상적으로 복구되었다.
이번 프로젝트를 이끈 앤트로픽의 기술진 잭 린지(Jack Lindsey)는 이와 같은 AI의 이상 사례들이 연구의 출발점이 되었다고 설명했다. 린지는 “모델의 페르소나를 구성하는 신경학적 기반을 찾아낼 수 있다면 왜 이런 현상이 발생하는지를 이해하고 더 효과적으로 제어할 방법도 마련할 수 있을 것”이라고 말했다.