The dark secret behind those cute AI-generated animal images

AI가 생성한 귀여운 동물 이미지 뒤에 감춰진 어두운 비밀

오픈AI의 DALL-E에 이어 구글브레인이 자체 개발한 이미지 생성 AI ‘이매젠’을 공개했다. 이번에도 귀여운 동물 이미지는 잔뜩 감상할 수 있지만, 건전하지 않은 이미지를 보겠다는 기대는 접는 편이 좋다.

매달 인공지능(AI)이 생성하는 이상하면서도 멋진 이미지들이 쏟아지고 있다. 4월에 오픈AI(OpenAI)는 새로 개발한 이미지 생성 신경망(neural network) DALL-E 2를 공개했다. DALL-E 2는 거의 무엇이든 요청하기만 하면 놀라운 고해상도 이미지를 생성할 수 있었다. DALL-E 2는 거의 모든 면에서 이전 버전 DALL-E를 크게 능가했다.

그로부터 고작 몇 주밖에 지나지 않은 5월 말에 구글브레인(Google Brain)도 이매젠(Imagen)이라는 이름의 이미지 생성 AI를 공개했다. 그리고 이매젠은 DALL-E 2보다도 훨씬 나은 성능을 보여준다. 이매젠은 컴퓨터 생성 이미지의 품질을 평가하는 척도를 바탕으로 한 점수도 DALL-E 2보다 더 높으며 인간 평가위원 그룹도 이매젠이 생성한 이미지를 더 선호했다.

어떤 트위터 이용자는 “우리는 AI 우주 경쟁을 경험하고 있다!”는 글을 남겼고, 다른 트위터 이용자는 “스톡이미지(stock image) 산업은 공식적으로 끝장났다”고 적었다.

이매젠이 생성한 이미지들은 대부분 입이 떡 벌어질 정도로 놀랍다. 언뜻 보면 이매젠이 생성한 이미지 속 야외 장면 중 일부는 내셔널 지오그래픽 잡지 페이지에서 가져온 것처럼 느껴질 정도다. 마케팅팀은 몇 번 클릭하기만 하면 이매젠을 이용해서 광고판에 바로 사용할 수 있을 정도의 광고를 만들 수도 있다.

그러나 오픈AI가 DALL-E로 보여줬던 것처럼 구글도 ‘귀여움’에 모든 것을 걸고 있는 것으로 보인다. 두 회사는 의인화된 동물들이 사랑스러운 행동을 하는 이미지를 가지고 자신들이 제작한 이미지 생성 AI를 홍보한다. 예를 들어 요리사 차림을 하고 반죽을 만들고 있는 털이 보송보송한 판다, 초밥처럼 만들어진 집 안에 앉아 있는 코기, 올림픽에서 400m 접영을 하고 있는 테디베어의 이미지 같은 것을 활용한다.

이런 이미지를 활용하는 것에는 홍보를 위한 이유도 있지만 기술적인 이유도 있다. ‘털이 보송보송한 판다’와 ‘반죽을 만들다’ 같은 개념을 혼합하게 되면 신경망은 그런 어울리지 않는 개념들을 말이 되는 방식으로 조작하는 방법을 강제로 배울 수 있다. 그러나 이러한 이미지에 드러난 귀여움은 이미지 생성 AI의 어두운 측면을 감추고 있다. 그 어두운 측면은 이미지 생성 AI들이 어떻게 제작되는지에 관한 추악한 진실을 드러낼 수 있기 때문에 대중들이 볼 수 없도록 숨겨져 있는 부분이다.

오픈AI와 구글이 공개한 이미지의 대부분은 선별된 것이다. 우리는 회사가 AI에 입력한 내용과 묘하게 일치하는 귀여운 이미지들만 볼 수 있다. 물론 여기까지는 예상했을 것이다. 그러나 우리는 또한 혐오스러운 고정관념, 인종차별, 여성혐오가 포함된 이미지도 볼 수 없다. 폭력적이거나 성차별적인 이미지도 없고 당연히 판다 포르노도 없다. 이러한 이미지 생성 AI가 어떻게 구축되는지 우리가 알고 있는 바에 따르면 그런 불편한 이미지들도 분명 존재해야 한다.

DALL-E 2와 이매젠 같은 대형 모델은 인터넷에서 가져온 방대한 문서와 이미지를 가지고 학습한다. 따라서 그러한 학습 데이터의 좋은 측면뿐만 아니라 최악의 측면까지도 흡수하게 된다. 여기까지는 비밀이 아니다. 오픈AI와 구글은 이 점을 공개적으로 인정한다.

이매젠의 웹사이트에서 가라테 벨트를 두른 용과, 모자와 선글라스를 착용한 작은 선인장을 지나 사회적 영향에 관한 부분으로 이동하면 이러한 문구를 볼 수 있다. “우리가 사용한 학습 데이터의 일부는 포르노 이미지와 해로운 언어 같은 바람직하지 않은 콘텐츠와 노이즈를 제거하기 위해 필터링됐지만 우리는 포르노 이미지, 인종차별적 비방, 해로운 사회적 고정관념 등 광범위한 부적절한 데이터가 포함된 것으로 알려진 LAION-400M 데이터세트도 활용했습니다. 이매젠은 선별되지 않은 웹 규모의 방대한 데이터로 학습한 텍스트 인코더를 사용하므로 대형언어모델이 가진 사회적 편향과 한계를 계승합니다. 이에 따라 이매젠에는 해로운 고정관념과 표현을 암호화할 위험이 있기 때문에 우리는 추가적인 안전장치가 마련되지 않은 상태에서는 이매젠을 대중이 사용할 수 있게 공개하지 않기로 했습니다.”

이는 오픈AI가 2019년에 GPT-3를 공개하면서 인정한 내용과 비슷하다. 당시 오픈AI는 “인터넷에서 가져온 자료로 학습한 모델은 인터넷 규모의 편향을 가진다”고 밝힌 바 있다. 런던 퀸메리대학교에서 AI 창의성을 연구하는 마이크 쿡(Mike Cook)이 지적했듯이 구글의 대형언어모델 PaLM과 오픈AI의 DALL-E 2도 비슷한 문제를 가지고 있다. 간단히 말해서 이들 회사들은 자신들이 개발한 모델이 끔찍한 콘텐츠를 생성할 수 있다는 것을 알고 있지만 그 문제점을 수정할 방법은 전혀 알지 못한다.

현재 해결책은 해당 AI 모델들을 가두어 두는 것뿐이다. 오픈AI는 DALL-E 2를 신뢰할 수 있는 소수의 사용자에게만 공개했고 구글은 이매젠을 출시할 계획이 없다.

만약 이 AI 모델들이 단순히 독점적인 모델들이었다면 괜찮았을 것이다. 그러나 오픈AI와 구글은 AI가 가진 능력의 경계를 확장하고 있으며 이들의 작업은 우리 모두와 함께 살아가는 AI의 모습을 만들어가고 있다. 두 회사는 새로운 ‘경이’를 만들면서 동시에 새로운 ‘공포’도 만들고 있다. 그리고 상황을 대수롭지 않게 넘기며 하던 일을 계속해나가고 있다. 2020년 구글의 내부 윤리팀이 대형언어모델에 관해 문제를 제기했을 때 구글은 연구를 이끈 연구자 두 명을 해고하기도 했다.

대형언어모델과 이미지 생성 AI는 세상을 변화시킬 기술이 될 만한 잠재력을 가지고 있지만 그러려면 위험성이 먼저 해결되어야 한다. 그리고 위험성을 해결하려면 훨씬 더 많은 연구가 필요할 것이다. 물론 더 많은 연구가 이루어질 수 있도록 이러한 신경망을 공개하는 작은 움직임들도 있다. 몇 주 전 메타(Meta)는 대형언어모델을 개발하여 단점까지 모두 연구자들에게 공개했다. 그리고 허깅페이스(Hugging Face)는 앞으로 몇 달 안에 GPT-3에 대한 자체적인 오픈소스 버전을 출시할 예정이다.

어쨌든 현재로서는 귀여운 테디베어를 즐기는 편이 좋을 것 같다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.