It’s easy to tamper with watermarks from AI-generated text

AI 생성 텍스트에 넣는 워터마크 변조가 이렇게 쉬울 줄이야

인공지능(AI)이 생성한 콘텐츠인지를 확인하기 위해 붙이는 워터마크를 변조하기가 놀라울 만큼 쉬울 수 있다는 사실이 밝혀졌다.

인공지능(AI)이 생성한 텍스트에 삽입하는 워터마크가 제거하기가 쉽고, 도용이나 복제도 가능해 무용지물이 될 수 있다는 사실이 연구를 통해 밝혀졌다.

워터마크란 텍스트, 이미지, 비디오, 오디오 등의 원본 데이터에 본래 소유주만이 아는 마크를 사람의 육안이나 귀로는 구별할 수 없게 삽입하는 기술을 말한다. 저작권을 보호하거나 생산자의 소유권을 인식시키거나 위변조 방지나 작품 홍보 등 다양한 목적으로 활용된다.

워터마크는 새로운 발명품이지만, AI 업계에서는 AI가 생성한 텍스트라는 걸 감지할 수 있게 해주는 데 이 기술이 이미 광범위하게 사용되고 있다. AI가 생성한 잘못된 정보와 표절에 대응하는 게 목적이다.

예를 들어, 5월에 시행되는 유럽연합(EU)의 AI 규제법은 개발자에게 AI가 생성한 콘텐츠에 워터마크를 넣도록 의무화하고 있다. 그러나 워터마크의 약점을 알아보기 위한 공격을 개발한 팀의 일원이었던 취리히 연방공과대학교 박사 과정 학생인 로빈 스타브(Robin Staab)는 “연구 결과, 워터마크를 삽입하는 워터마킹 기술이 규제 기관의 요구 사항을 충족하지 못한다는 사실이 드러났다”고 지적했다.

스타브가 속한 연구팀이 실시한 연구는 아직 동료 검토를 받지 않았지만, 5월에 열리는 ‘표현학습국제학회(International Conference on Learning Representations conference)’에서 발표될 예정이다.

AI 언어 모델은 문장에서 다음에 나올 가능성이 있는 단어를 예측한 뒤 이 예측에 기초해서 한 번에 한 단어씩 생성하는 방식으로 작동한다. 텍스트용 워터마킹 알고리즘은 언어 모델의 어휘를 ‘녹색 목록’과 ‘빨간색 목록’ 단어들로 나눈 다음, AI 모델이 녹색 목록의 단어를 선택하도록 한다. 따라서 문장에 녹색 목록에 속했던 단어가 많을수록 컴퓨터가 생성한 텍스트일 가능성이 크다. 인간은 기계보다 더 무작위로 단어를 섞어 문장을 만드는 경향이 있기 때문이다.

연구팀은 이러한 방식으로 작동하는 5종의 워터마크를 조작해 봤다. 이 과정에서 연구팀은 API(Application Programming Interface·요약 운영체제와 응용프로그램 사이의 통신에 사용되는 언어나 메시지 형식)를 사용하여 워터마크가 적용된 AI 모델에 액세스한 뒤 여러 번 프롬프트를 전송하여 워터마크를 역설계(逆設計)하는 데 성공했다. 스타브는 “공격자는 이러한 방식으로 워터마크 부착 규칙과 유사한 모델을 구축함으로써 워터마크를 ‘훔칠’ 수 있다”면서 “공격자는 AI의 아웃풋을 분석하고 그것을 일반 텍스트와 비교하면서 그렇게 할 수 있다”고 설명했다.

연구진은 워터마크가 들어간 단어를 대략적으로라도 파악하면 두 가지 종류의 공격을 감행할 수 있었다. 첫 번째는 스푸핑(spoofing) 공격이다. 이것은 악의적인 공격자가 워터마크를 훔친 뒤 얻은 정보를 이용해 마치 워터마크가 있는 것처럼 속이는 텍스트를 생성하는 걸 말한다. 두 번째는 해커가 워터마크에서 AI가 생성한 텍스트를 삭제함으로써 텍스트가 마치 사람이 작성한 것처럼 보이게 만드는 공격이다.

연구진은 약 80%의 스푸핑 공격 성공률을 보였고, AI가 생성한 텍스트에서 워터마크를 제거하는 데는 85%의 성공률을 나타냈다.

메릴랜드 대학교의 릴라이어블 AI 연구소(Reliable AI Lab)의 부교수이자 책임자인 소헤일 페이지(Soheil Feizi)와 같이 취리히 연방공대 연구진에 소속되지 않은 연구자들도 워터마크가 신뢰할 수 없고 스푸핑 공격에 취약하다는 사실을 발견한 바 있다.

페이지는 “취리히 연방공대의 연구 결과는 연구로 밝혀진 워터마크 문제가 계속 일어나고 있으며, 오늘날 사용되는 최첨단 챗봇과 대형언어모델에도 같은 문제가 일어날 수 있다는 걸 확인시켜 준다”고 말했다.

그는 그러면서 “이번 연구는 AI가 생성한 콘텐츠인지를 탐지하기 위해 워터마크를 대규모로 도입할 때 주의를 기울이는 것이 중요하다는 사실을 보여준다”고 강조했다.

이번 연구 결과에도 불구하고 워터마크는 여전히 AI가 생성한 콘텐츠인지를 탐지하는 가장 유망한 방법이라는 게 이번 연구에 참여한 취리히 연방공대 박사 과정 학생인 니콜라 요바노비치(Nikola Jovanović)의 생각이다.

하지만 그는 “워터마크를 대규모로 도입하기 위해서는 더 많은 연구가 필요하다”면서 “그때까지는 이런 도구가 얼마나 신뢰할 수 있고 유용한지에 대한 기대를 낮출 필요가 있다”고 조언했다. 그는 그러면서도 “그래도 아무것도 하지 없는 것보다는 낫다”면서 “워터마크는 여전히 유용하다”라고 덧붙였다.