fbpx
Anthropic has a new way to protect large language models against jailbreaks

앤트로픽, 대형언어모델의 왜곡 방어 체계 공개

앤트로픽이 선보인 최신 방어 체계는 현존하는 탈옥 차단 기술 중 가장 강력한 방어력을 자랑한다. 하지만 보안에서 완벽한 차단 시스템은 존재하지 않는다는 사실을 명심해야 한다.

AI 기업 앤트로픽(Anthropic)이 흔히 발생하는 ‘탈옥(jailbreak)’ 공격을 막기 위한 새로운 방어 체계를 개발했다. AI 업계에서 탈옥이란 대형언어모델(LLM)을 속여 본래 훈련된 방식대로 작동하지 않도록 만드는 기법으로, 예를 들어 무기 제작을 돕는 답변을 내놓도록 유도하는 방식이다.

앤트로픽의 새로운 접근법은 지금까지 개발된 탈옥 방어 기술 중 가장 강력한 보호막이 될 가능성이 있다. 카네기멜런대학교에서 탈옥을 연구하는 알렉스 로비(Alex Robey)는 이에 대해 “유해한 질문을 차단하는 방어 체계의 최전선에 있는 기술”이라고 평가했다.

대부분의 LLM은 개발자가 원하지 않는 질문에는 답하지 않도록 훈련되어 있다. 예를 들어 앤트로픽의 LLM인 클로드(Claude)는 화학무기에 대한 질문을 거부하며, 딥시크(DeepSeek)의 R1은 중국 정치와 관련된 질문에 답하지 않도록 설계된 것으로 보인다.

그러나 특정 프롬프트나 연속된 프롬프트를 사용해 이러한 모델을 정상적인 작동 범위에서 벗어나게 만들 수 있다. 예를 들어 모델에게 특정 캐릭터를 연기하도록 역할극을 시켜 내장된 안전장치를 우회하게 하거나, 대문자를 표준에 맞지 않게 사용하고 특정 문자를 숫자로 대체하는 등 프롬프트 형식을 변형하는 방식을 쓰는 식이다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!