
중국의 새 이미지 생성 AI에 ‘천안문’을 입력했을 때 생기는 일
중국에서 ‘텍스트를 입력하면 이미지를 생성해주는(text-to-image)’ 새로운 인공지능(AI)이 등장했다. 기술 기업 바이두(Baidu)가 개발한 AI ‘ERNIE-ViLG’가 바로 그것이다. ERNIE-ViLG를 이용하면 중국만의 고유한 문화적 특성을 보여주는 이미지를 생성할 수 있다. 또 DALL-E 2 같은 다른 서구의 이미지 생성 AI보다 더 뛰어난 애니메이션 그림도 그릴 수도 있다.
그러나 ERNIE-ViLG는 중국 2대 도시 광장이자 상징적인 정치적 중심지인 ‘천안문 광장’을 비롯해 많은 이미지를 생성해 보여주길 거부한다.
8월 말 ERNIE-ViLG의 데모가 공개되자마자 이용자들은 곧바로 정치인의 이름이나 정치적 맥락에서 논란의 소지가 있는 단어 등 특정 단어가 ‘민감한’ 표현으로 분류되어 그것의 이미지가 생성되지 않도록 막혀 있다는 것을 알아냈다.
중국의 정교한 온라인 검열 시스템이 AI의 최신 트렌드라고 할 수 있는 이미지 생성 AI로도 감시의 손길을 뻗친 것이다.
물론 이와 유사한 이미지 생성 AI에서 이용자가 특정 유형의 콘텐츠를 생성할 수 없도록 제한하는 게 드문 일이 아니다. DALL-E 2는 성적인 콘텐츠나 공인의 얼굴, 의학적 치료와 관련한 이미지 생성을 금지한다. 그러나 ERNIE-ViLG의 사례는 ‘콘텐츠 관리(contents moderation)’와 정치적 검열 사이의 경계가 정확히 어디에 위치해야 하는지에 대한 의문을 분명히 보여준다.
ERNIE-ViLG는 중국의 대표적인 AI 기업 바이두의 대규모 자연어처리 프로젝트인 원신(Wenxin)의 일부다. 이 AI는 1억 4,500만 개의 이미지-텍스트 쌍으로 구성된 데이터세트로 학습했고, 신경망이 학습하면서 조정하는 값인 파라미터(parameter, 매개변수)는 100억 개에 달한다. AI는 이 파라미터를 이용해 콘셉트와 미술 스타일의 미묘한 차이를 구분한다.
다시 말해서 ERNIE-ViLG는 DALL-E 2(6억 5,000만 쌍)와 스테이블디퓨전(Stable Diffusion, 23억 쌍)보다 학습에 사용한 데이터세트 규모는 작지만, 두 AI(DALL-E 2는 35억 파라미터, 스테이블디퓨전은 8억 9,000만 파라미터)보다 더 많은 파라미터를 가지고 있다. 바이두는 8월 말 자체 플랫폼에, 그 이후에는 인기 있는 국제 AI 커뮤니티인 허깅페이스(Hugging Face)에 데모 버전을 공개했다.
ERNIE-ViLG와 서구의 이미지 생성 AI 모델 간의 중요한 차이는 바이두의 모델이 중국어로 된 ‘명령어(prompt)’를 이해하며, 문화적으로 특수한 단어에 대해서 실수할 가능성이 적다는 데 있다.
예를 들어 중국의 한 영상 제작자는 중국의 역사적 인물, 대중문화 유명인, 음식 등이 포함된 명령어를 입력해서 여러 AI 모델이 내놓는 결과를 비교한 결과 ERNIE-ViLG가 DALL-E 2나 스테이블디퓨전보다 더 정확한 이미지를 생성하는 것을 발견했다. ERNIE-ViLG는 다른 이미지 생성 AI보다 더 만족스러운 애니메이션 이미지를 생성한다는 이유로 출시 이후 일본 애니메이션 커뮤니티에서도 좋은 평을 받았다. 이는 ERNIE-ViLG의 학습 데이터에 애니메이션 이미지가 더 많이 포함되어 있었기 때문인 것으로 보인다.
그러나 ERNIE-ViLG에는 다른 이미지 생성 AI와 마찬가지로 검열 시스템이 내장되어 있다. DALL-E 2나 스테이블디퓨전과 달리 ERNIE-ViLG는 콘텐츠 관리 정책이 공개되지 않았으며 바이두도 이에 관해 이야기하기를 거부했다.
ERNIE-ViLG 데모가 허깅페이스에 처음 공개됐을 때 특정 단어를 입력한 이용자들은 “민감한 단어가 발견되었습니다. 다시 입력해주세요(存在敏感词,请重新输入)”라는 메시지를 받았다. 이 문구는 필터링 메커니즘에 대해 놀라울 정도로 솔직하게 인정하는 문구였다. 그러나 적어도 9월 12일 이후에는 메시지가 “입력된 콘텐츠가 관련 규칙을 충족하지 않습니다. 조정 후에 다시 시도하십시오(输入内容不符合相关规则,请调整后再试!)”로 바뀌었다.
MIT 테크놀로지 리뷰가 데모 버전을 테스트한 결과 시진핑과 마오쩌둥 같은 유명한 중국 정치 지도자의 이름, ‘혁명(revolution)’이나 중국에서 VPN 서비스 사용을 의미하는 은어인 ‘벽타기(climb walls)’처럼 정치적으로 민감하다고 여겨질 수 있는 용어, 바이두 설립자이자 CEO인 리옌훙의 이름 등 상당수의 중국 단어가 차단되는 것을 볼 수 있었다.
한편 ‘민주주의(democracy)’와 ‘정부(government)’ 같은 단어는 단독으로 사용될 때는 허용되지만, ‘민주주의 중동(democracy Middle East)’이나 ‘영국 정부(British government)’처럼 다른 단어와 결합되면 차단된다. 베이징의 천안문 광장 역시 ERNIE-ViLG에서는 생성할 수 없다. 이는 중국에서 강력하게 검열하는 ‘천안문 대학살’과의 연관성 때문일 것이다.
오늘날 중국에서 소셜미디어 회사들은 업체마다 정부 지시와 자체적인 운영 결정에 따라 구축한 민감한 단어 목록을 가지고 있다. 즉 ERNIE-ViLG가 사용하는 필터는 텐센트(Tencent)가 운영하는 위챗(WeChat)이나 시나코퍼레이션(Sina Corporation)의 웨이보(Weibo)에서 사용하는 필터와 다를 가능성이 크다. 이러한 중국 플랫폼 중 일부는 캐나다 토론토에 위치한 연구 그룹 ‘시티즌랩(Citizen Lab)’이 체계적으로 테스트한 바 있다.
중국계 호주인 정치 만화가 바듀차오(Badiucao: 신분 보호를 위해 이러한 가명으로 활동한다)는 ERNIE-ViLG의 검열을 발견한 최초의 이용자 중 한 명이다. 그의 작품 중 다수가 직접적으로 중국 정부나 중국의 정치 지도자들을 비판하기 때문에 그가 모델에 입력한 최초의 명령어도 이와 관련된 내용이었다.
바듀차오는 “물론 나는 의도적으로 이 AI의 생태계를 탐색하고 있었다. ERNIE-ViLG는 새로운 영역이므로 검열이 거기까지 적용됐는지 궁금했다”며 “하지만 그 결과는 상당히 아쉬웠다”고 밝혔다.
예술가로서 바듀차오는 DALL-E 2의 접근법을 포함해서 이미지 생성 AI에 적용된 모든 형태의 콘텐츠 관리에 동의하지 않는다. 자신의 예술에서 무엇이 허용되어야 하는지 결정하는 주체는 자기 자신이어야 한다고 생각하기 때문이다. 그러나 그는 도덕적인 우려로 인해 도입된 검열과 정치적 목적의 검열에 혼동이 있어서는 안 된다고 경고한다. 그는 “AI가 공통적으로 합의된 도덕적 기준에 따라 이미지 생성 여부를 판단하는 것과 제삼자인 정부가 개입해서 국가나 정부에 해를 끼칠 수 있으니 이미지를 생성해서는 안 된다고 결정하는 것은 다르다”고 설명했다.
허깅페이스의 수석 윤리학자 지아다 피스틸리(Giada Pistilli)는 검열과 콘텐츠 관리 사이의 명확한 경계를 설정하는 것은 문화와 법적 제도 사이의 차이로 인해 어렵기도 하다고 설명했다. 예를 들어 다른 문화권에서는 같은 이미지도 다르게 해석될 수 있다. 피스틸리는 “종교적 상징의 경우를 생각해보면, 프랑스에서는 공공장소에서 모든 종교적 상징을 허용하지 않는데, 그것이 프랑스식 세속주의의 표현이다. 하지만 미국에서 세속주의란 종교적 상징을 비롯한 모든 것을 허용하는 것을 의미한다”고 설명했다.
1월에 중국 정부는 “국가 안보와 사회 안정을 위협하는” 모든 AI 생성 콘텐츠를 금지하는 새 규정을 제안했다. ERNIE-ViLG 같은 AI도 이 규정의 제한을 받게 될 것이다.
피스틸리는 ERNIE-ViLG의 경우에 개발자가 콘텐츠 관리에 관한 내용을 설명하는 문서를 공개하면 도움이 될 수 있다고 말했다. 그는 “법에 따라서 검열된 것인가? 아니면 그것이 잘못됐다고 생각해서 검열하는 것인가? 이러한 질문들은 우리의 주장이나 선택을 설명하는 데 항상 도움이 된다”고 설명했다.
검열 시스템이 내장되어 있기는 하지만 그래도 ERNIE-ViLG는 대규모 이미지 생성 AI 개발에서 중요한 역할을 담당할 것이다. 특정 언어로 이루어진 데이터세트로 학습한 이러한 AI 모델의 등장은 영어를 기반으로 하는 주류 모델들의 한계를 일부 보완할 수 있다. 이 소프트웨어는 또한 중국어를 이해해서 그에 따라 정확한 이미지를 생성할 수 있는 AI가 필요한 이용자에게 도움이 될 것이다.
중국 소셜미디어 플랫폼이 엄격한 검열에도 불구하고 인기를 누리고 있는 것처럼 ERNIE-ViLG나 다른 중국 AI 모델들도 결국에는 같은 경험을 하게 될지도 모른다. 검열 때문에 포기하기에는 기능이 너무나 유용하다.