
수면 위로 떠오른 이미지 생성AI의 저작권 침해
최근 인기를 끌고 있는 이미지 생성 AI가 실제 존재하는 사람의 사진을 생성하여 사생활 침해 우려가 있다는 연구 결과가 발표되었다. AI가 의료 사진이나 창작예술가들의 저작권 있는 작품을 복제하여 마치 스스로 창작한 것처럼 활용할 가능성이 있다는 사실도 밝혀졌다. 이 연구는 현재 저작권 위반으로 AI 회사와 법적 다툼을 벌이고 있는 예술가들의 주장에 힘을 실어준다.
구글, 딥마인드, 캘리포니아 대학교 버클리 캠퍼스(University of California, Berkeley, 이하 UC 버클리), 취리히 연방 공과대학교(ETH Zürich), 프린스턴 대학교(Princeton University) 연구원으로 구성된 공동 연구팀은 스테이블 디퓨전(Stable Diffusion)과 구글의 이매젠(Imagen)에 특정 인물의 이름과 같은 주석(caption)을 여러 차례 입력한 뒤 도출된 결과물을 조사하였다. 이 과정에서 AI가 데이터베이스에 존재하는 원본과 일치하는 이미지를 생성하는지 분석하였다. 그 결과 연구진은 AI 훈련 데이터 세트와 동일한 이미지가 100장 넘게 생성된 것을 확인할 수 있었다.
연구에서 사용된 이미지 생성 AI 모델은 설명 문구가 포함된 이미지를 인터넷에서 스크랩하여 구축한 방대한 데이터 세트를 기반으로 훈련되었다. 가장 최근 출시된 이미지 생성 AI 모델은 데이터 세트로부터 이미지를 가져와 원본 이미지가 무작위 픽셀들의 집합이 될 때까지 한 번에 한 픽셀씩 모든 픽셀을 바꾼다. 그런 다음, 이 과정을 역으로 수행하면서 뒤죽박죽이던 이미지를 새로운 이미지로 만든다.
프랑스 캉노르망디대학교(University of Caen Normandy)에서 박사과정을 밟고 있는 라이언 웹스터(Ryan Webster)는 이번 연구가 ‘AI 모델이 훈련 세트에 있던 이미지를 기억한다는 것을 처음으로 입증한 사례’라고 설명한다. (앞서 웹스터는 이미지 생성 모델과 관련한 사생활 침해 문제를 연구하였다.) 이 결과는 AI 시스템이 민감한 개인정보를 유출할 위험이 있다는 점에서, 의료 분야에 생성형 AI 모델(Generative AI model)을 활용하려던 스타트업에 영향을 미칠 수 있다. 오픈AI(OpenAI), 구글, 스태빌리티.AI(Stability.AI)는 이 문제에 대한 MIT 테크놀로지 리뷰의 논평 요청에 응하지 않았다.
연구에 참여한 UC 버클리의 박사과정생 에릭 월러스(Eric Wallace)는 이번 연구가 생성형 AI 모델이 의료와 같은 개인정보에 민감한 분야에 활용되기 전에, 먼저 사생활 침해 문제의 경각심을 일깨울 수 있길 바란다고 밝혔다.
월러스는 “많은 사람이 민감한 정보를 다루는 분야에 이러한 유형의 생성형 AI를 적용해보고 싶어 한다. 그러나 이러한 연구는 개인정보 침해 방지에 대한 철저한 안전장치가 마련되지 않는 한 매우 위험할 수 있다”고 설명한다.
AI 회사와 예술가들은 생성형 AI 모델이 데이터베이스에 있던 이미지를 기억하고 다시 활용하는 정도의 문제에도 큰 갈등을 겪고 있다. 스태빌리티.AI는 예술가 집단과 게티이미지(Getty Images)로부터 각각 고소를 당한 상태다. 이들은 스태빌리티.AI가 저작권이 있는 자료를 불법 수집하여 가공했다고 주장하고 있다.
이번 연구는 저작권 위반으로 AI 회사를 고발한 예술가들의 주장을 뒷받침해 줄 것이다. 만약 스테이블 디퓨전의 AI 훈련에 저작물이 사용됐다고 주장하는 예술가가 AI 모델이 무단으로 작품을 표절했다는 사실을 증명할 경우, AI 회사는 예술가에게 보상해야 한다.
캘리포니아 대학교 어바인 캠퍼스(University of California, Irvine)의 컴퓨터과학과 부교수 새미어 싱(Sameer Singh)은 이 연구가 시의적절하고 중요한 문제를 제기했다고 말한다. 그는 “대중들에게 문제를 알리고 대형 언어 모델과 관련된 ‘보안 및 사생활 침해에 대한 논의’를 시작하는 계기가 되었다는 점에서 중요하다”고 강조했다.
싱은 이 연구가 AI 모델의 이미지 표절 여부와 그 정도를 측정할 수 있음을 보여줬다고 말한다. 그는 이 두 가지 모두 장기적으로 매우 의미 있는 작업이라고 덧붙였다.
스테이블 디퓨전은 오픈 소스이므로 누구나 자료를 분석하고 연구할 수 있다. 이매젠도 오픈 소스는 아니지만 구글은 연구자들에게 접근 권한을 부여하고 있다. 싱은 이 연구가 연구자들이 AI 모델을 분석할 수 있도록 접근을 허용하는 것이 얼마나 중요한지 보여주는 좋은 사례라고 말한다. 그는 오픈AI의 챗GPT(ChatGPT)와 같은 다른 AI 모델에 대해서도 AI 회사들이 이와 같은 투명성을 확보해야 한다고 주장한다.
물론 이 연구 결과 가운데 주의해야 할 부분도 있다. 연구팀의 일원인 취리히 공대의 컴퓨터과학과 조교수 플로리안 트라머(Florian Tramèr)는 AI가 실제 이미지의 복제본을 생성했을 때는 원본 이미지가 훈련 데이터에 중복 등장했거나, 데이터 세트 내 다른 이미지들보다 특이한 경우였다고 말한다.
트라머는 사진 속 인물의 생김새나 이름이 특이할 때 AI가 더 쉽게 기억할 수 있다고 말한다.
웹스터에 의하면 AI가 생성한 이미지 가운데 신원을 식별할 수 있는 인물 사진은 극히 소수였으며, 100만 장 중 하나 정도였다.
하지만 트라머는 “누군가 이 결과를 보고 ‘음, 100만분의 1 비율이면 나쁘지 않다’라고 말하는 일이 없길 바란다”며 우려를 표했다.
그는 “이러한 일이 단 한 건이라도 발생하는 것만으로 큰 문제다”라고 설명했다.