
Stephanie Arnett/MIT Technology Review | Rawpixel
Anthropic has a new way to protect large language models against jailbreaks
앤트로픽, 대형언어모델의 왜곡 방어 체계 공개
앤트로픽이 선보인 최신 방어 체계는 현존하는 탈옥 차단 기술 중 가장 강력한 방어력을 자랑한다. 하지만 보안에서 완벽한 차단 시스템은 존재하지 않는다는 사실을 명심해야 한다.
AI 기업 앤트로픽(Anthropic)이 흔히 발생하는 ‘탈옥(jailbreak)’ 공격을 막기 위한 새로운 방어 체계를 개발했다. AI 업계에서 탈옥이란 대형언어모델(LLM)을 속여 본래 훈련된 방식대로 작동하지 않도록 만드는 기법으로, 예를 들어 무기 제작을 돕는 답변을 내놓도록 유도하는 방식이다.
앤트로픽의 새로운 접근법은 지금까지 개발된 탈옥 방어 기술 중 가장 강력한 보호막이 될 가능성이 있다. 카네기멜런대학교에서 탈옥을 연구하는 알렉스 로비(Alex Robey)는 이에 대해 “유해한 질문을 차단하는 방어 체계의 최전선에 있는 기술”이라고 평가했다.
대부분의 LLM은 개발자가 원하지 않는 질문에는 답하지 않도록 훈련되어 있다. 예를 들어 앤트로픽의 LLM인 클로드(Claude)는 화학무기에 대한 질문을 거부하며, 딥시크(DeepSeek)의 R1은 중국 정치와 관련된 질문에 답하지 않도록 설계된 것으로 보인다.
그러나 특정 프롬프트나 연속된 프롬프트를 사용해 이러한 모델을 정상적인 작동 범위에서 벗어나게 만들 수 있다. 예를 들어 모델에게 특정 캐릭터를 연기하도록 역할극을 시켜 내장된 안전장치를 우회하게 하거나, 대문자를 표준에 맞지 않게 사용하고 특정 문자를 숫자로 대체하는 등 프롬프트 형식을 변형하는 방식을 쓰는 식이다.