
이미지 생성 AI에 맞서는 예술가들 위한 도구 등장
예술가들이 자신의 작품을 온라인에 올릴 때 픽셀을 육안으로 구분할 수 없을 정도로 미묘하게 변형시키는 도구가 등장했다. 만약 이 작품이 AI 모델의 학습 데이터로 수집될 경우 그 자료로 학습한 모델은 혼란스럽고 예측할 수 없는 결과물을 생성하게 된다.
이 도구의 이름은 ‘나이트셰이드(Nightshade)’로 예술가의 작품을 동의 없이 AI 모델의 학습에 이용하는 AI 회사들에 맞서기 위해 만들어졌다. 나이트셰이드는 학습 데이터를 오염시켜 이미지 생성 AI 모델의 일부 결과물을 쓸모없게 만든다. 예를 들어, ‘개’를 입력했는데 ‘고양이’가 나오고 ‘자동차’를 입력했는데 ‘소’가 나오는 식이다. 나이트셰이드는 DALL-E, 미드저니(Midjourney), 스테이블 디퓨전(Stable Diffusion) 등 이미지 생성 AI 모델의 차세대 버전에 손상을 입힐 수 있다. MIT 테크놀로지 리뷰는 컴퓨터 보안 컨퍼런스인 유즈닉스(Usenix)에서 동료평가를 위해 제출된 이 연구를 확인할 독점적인 기회를 얻었다.
오픈AI, 메타, 구글 그리고 스태빌리티 AI 등 AI 회사들은 저작권이 있는 자료와 개인정보를 동의나 보상 없이 수집했다고 주장하는 예술가들이 제기한 수많은 소송에 직면해 있다. 나이트셰이드의 연구개발을 이끈 벤 자오(Ben Zhao) 시카고 대학교 교수는 이 도구가 예술가의 저작권 및 지적 재산을 무시하지 못하게 하는 강력한 제지 수단이 되어 AI 회사에 치우친 힘의 균형이 예술가에게 되돌아가길 바란다고 전했다. MIT 테크놀로지 리뷰는 메타, 구글, 스태빌리티 AI, 오픈AI에게 나이트셰이드에 어떻게 대응할지 물었지만 답변을 받지 못했다.
자오 교수의 연구팀은 이전에도 AI 회사가 예술가들의 작품을 수집하는 것을 방지하는 도구인 ‘글레이즈(Glaze)’를 개발한 바 있다. 글레이즈는 예술가의 스타일적 특징을 감춰 AI가 학습하지 못하도록 한다. 또한 나이트셰이드와 유사하게 이미지의 픽셀을 육안으로 구분할 수 없는 미묘한 방식으로 변형하고 머신러닝 모델이 실제로 보여지는 것과 다르게 해석하도록 조작한다.
연구팀은 나이트셰이드를 글레이즈에 통합하고 예술가들이 사용 여부를 선택할 수 있도록 할 방침이다. 또한 나이트셰이드를 오픈소스로 공개해 사람들이 자신만의 수정 버전을 만들 수 있도록 지원할 계획이다. 자오 교수는 더 많은 사람들이 나이트셰이드를 사용하고 수정 버전을 만들수록 나이트셰이드는 더 강력해질 것이라고 말했다. 대형 AI 모델의 데이터 세트에는 수십억 개의 이미지가 포함되는데 오염된 이미지를 더 많이 수집할수록 이 도구가 초래하는 피해도 커질 것이다.
표적 공격
나이트셰이드는 생성형 AI 모델의 보안 취약점을 이용한다. 그 취약점 중 하나가 AI 모델이 인터넷에서 수집한 이미지와 같은 대량의 데이터로 학습된다는 것이다. 그리고 나이트셰이드는 그 수집되는 이미지들을 엉망으로 만든다.
온라인에 작품을 올리고 싶지만 AI 회사들에 의해 수집되는 상황을 원치 않는 예술가들은 글레이즈를 이용해 자신과 다른 스타일을 덮어씌울 수 있다. 나이트셰이드도 옵션으로 선택 가능하다. AI 개발자들이 기존의 AI 모델을 조정하거나 신규 모델을 개발하기 위해 데이터를 인터넷에서 수집하면 이 오염된 샘플들이 모델의 데이터 세트로 들어가 문제를 일으킨다.
오염된 데이터 샘플은 AI 모델이 잘못된 내용을 학습하도록 조작한다. 예를 들어 모자를 케이크로, 핸드백을 토스터로 잘못 이해하게 만드는 것이다. 오염된 데이터를 제거하는 일은 매우 어려운데 회사 측에서 손상된 샘플을 일일이 찾아서 삭제해야 하기 때문이다.
자오 교수의 연구팀은 스테이블 디퓨전의 최신 모델과 처음부터 자체 학습시킨 AI 모델을 대상으로 그들의 공격 도구를 테스트하고 결과를 비교했다. 스테이블 디퓨전에 잘못된 개의 이미지 50장을 학습시킨 다음 개 이미지를 요청하자 만화 같은 얼굴에 수많은 다리를 가진 괴이한 모습이 나왔다. 그리고 300장의 잘못된 이미지를 학습시키자 마치 고양이처럼 생긴 개의 이미지가 생성됐다.
생성형 AI 모델은 단어 간의 연결을 만드는데 뛰어난데 이러한 특성은 오염된 데이터가 퍼지기 쉽게 만든다. 나이트셰이드는 ‘개’라는 단어뿐만 아니라 ‘강아지’, ‘허스키’, ‘늑대’와 같은 유사한 개념까지 영향을 미쳤다. 이러한 오염 공격은 간접적인 연관성을 가진 이미지에도 효과가 있었다. 예를 들어, AI 모델이 ‘판타지 작품’이라는 명령어로 잘못된 이미지를 수집하면 ‘용’이나 ‘반지의 제왕에 나오는 성’과 같은 명령어도 마찬가지로 잘못된 이미지를 생성하도록 조작된다.
자오 교수는 이러한 데이터 오염 기술이 악용될 여지가 있음을 인정했다. 그러나 그는 수십억 개의 데이터 샘플로 학습되는 더 크고 강력한 AI 모델에 실질적인 손상을 주려면 수천 개의 오염된 샘플이 필요할 것이라고 말했다.
코넬 대학교에서 AI 모델의 보안을 연구하는 바이탈리 쉬마티코프(Vitaly Shmatikov) 교수는 “아직 이러한 공격에 대응할 강력한 방어 수단이 나오지 않았다. 현대의 머신러닝 모델에 오염 공격이 이뤄진 실제 사례는 없지만 시간문제일지도 모른다. 당장 방어 수단을 마련해야 한다”라고 말했다. (그는 이번 연구에 참여하지 않았다)
워털루 대학교에서 데이터 프라이버시와 AI 모델의 견고성을 연구하는 가우탐 카마스(Gautam Kamath) 조교수는 자오 교수의 연구를 “환상적”이라고 평가했다. (그도 이번 연구에 참여하지 않았다)
카마스 조교수는 “이번 연구는 새로운 AI 모델이 나온다고 해서 이러한 취약점이 사라지는 것은 아니며 사실 더 심각해질 수 있음을 보여준다”라고 덧붙였다. 이어서 “AI 모델들이 갈수록 강력해지고 사람들의 신뢰도 증가하고 있기 때문에 시간이 지나면 더 심각한 문제가 될 것이다”라고 강조했다.
강력한 제어 수단
컬럼비아 대학교에서 딥러닝 시스템의 보안을 연구하는 준펑 양(Junfeng Yang) 컴퓨터 공학부 교수는 나이트셰이드가 AI 회사들이 로열티를 지급하는 등의 방식으로 예술가들의 권리를 존중하게 만든다면 엄청난 영향력을 가지게 될 것이라고 말했다. (그는 이번 연구에 참여하지 않았다)
텍스트-이미지 생성 모델을 개발한 스태빌리티 AI, 오픈AI와 같은 AI 회사들은 예술가들이 자신의 작품이 미래 모델의 학습에 사용되는 것을 거부할 수 있는 ‘옵트아웃’ 기능을 제공하고 있다. 그러나 예술가들은 옵트아웃으로 충분하지 않다고 말한다. 글레이즈를 사용하고 있는 일러스트레이터이자 예술가인 에바 투레넌트(Eva Toorenent)는 옵트아웃 정책이 예술가들에게 더 많은 노력을 요구하고 여전히 테크 회사가 권력을 독차지하게 만든다고 주장했다.
투레넌트는 나이트셰이드가 이러한 상황을 전환해 주길 바란다.
“우리의 작품을 동의 없이 수집하면 전체 모델이 붕괴될 위험이 있기 때문에 나이트셰이드는 AI 회사들이 예술가에 대한 정책을 재고하도록 도와줄 것이다”라며 그녀는 희망을 내비쳤다.
또 다른 예술가인 어텀 베벌리(Autumn Beverly)는 나이트셰이드과 글레이즈 같은 도구들이 자신의 작품을 온라인에 다시 올릴 수 있는 자신감을 주었다고 말했다. 그녀는 과거에 라이온(LAION) 이미지 데이터베이스에 자신의 작품이 동의없이 수집된 것을 발견하고 온라인의 작품들을 삭제한 적이 있다.
베벌리는 “예술가가 자신의 작품에 대한 권리를 찾을 수 있는 도구가 등장한 것에 그저 고마울 따름이다”라고 말했다.