Text-to-image AI models can be tricked into generating disturbing images

이미지 생성 AI 모델 안전망 뚫는 새로운 ‘탈옥’ 수단 나왔다

문장이나 이미지를 생성하는 AI 모델은 기본적으로 폭력이나 누드 같은 유해한 이미지를 생성하지 못하게 되어 있다. 하지만 '스니키프롬프트'라는 새로운 탈옥 수법을 쓰면 이러한 모델이 생성해서는 안 되는 이미지도 만들 수 있다는 게 입증됐다.

인기 있는 이미지 생성 AI 모델들에서 안전 필터를 무시하고 유해한 이미지를 생성하는 방법이 밝혀졌다. 

이미지 생성 AI 모델인 스태빌리티 AI의 스테이블 디퓨전(Stable Diffusion)과 오픈AI의 DALL-E 2에서 자체적인 안전 정책을 깨뜨리고 벌거벗은 사람과 절단된 시체 등 폭력적이고 성적인 이미지를 생성할 수 있다는 사실이 한 연구를 통해 드러난 것이다. 

이 연구는 내년 5월 개최되는 IEEE 보안 및 프라이버시 심포지엄(IEEE Symposium on Security and Privacy)에서 발표될 예정으로, 생성형 AI 모델이 자체적인 안전 정책을 위반하도록 하는, 일명 ‘탈옥(jailbreaking)’이 얼마나 쉽게 이루어질 수 있는지 조명한다. 카네기 멜론 대학교의 지코 코틀러(Zico Kolter)는 조교수는 이 연구가 AI 모델의 방대한 학습 데이터에 이미 유해한 콘텐츠가 포함되어 있기 때문에 이러한 상황을 방지하기 얼마나 어려운지 보여주고 있다고 설명했다. 그는 이 연구에는 참여하지 않았으나 올해 초 챗GPT를 대상으로 비슷한 방식의 탈옥을 시연한 적이 있다. 

코틀러는 “이미 보안에 결함이 있는 소프트웨어와 도구를 더 큰 규모의 소프트웨어 시스템에 통합할 때 발생할 수 있는 위험을 고려해야 한다”라고 강조했다. 

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!