AI fake-face generators can be rewound to reveal the real faces they trained on

AI로 만든 ‘가짜 얼굴’의 진짜 주인을 알아낸다

한 연구팀이 AI가 학습해 생성한 ‘가짜 얼굴’에서 학습에 사용한 실제 얼굴 사진을 찾아내는 방법을 발견했다. 다른 연구팀은 AI가 가짜 이미지를 생성하는 과정을 반대로 되돌려서 입력 이미지를 다시 만들어냈다. 이제 과학자들은 이런 식의 AI 딥러닝 모델이 내부에서 벌어지는 일을 전혀 드러내지 않는 ‘블랙박스’ 같다는 믿음에 의문을 제기하고 있다.

이 사람은 존재하지 않는다(This Person Does Not Exist)’라는 웹사이트에 들어가면 사람 얼굴 사진을 볼 수 있다. 사진 속 얼굴은 실제 사람의 얼굴과 다를 바 없어 보이지만, 사실은 AI가 만들어낸 ‘가짜 얼굴’이다. ‘새로고침’을 누를 때마다 사이트의 인공신경망은 매번 다른 얼굴을 보여준다. 이러한 ‘가짜 얼굴’은 ‘생성적 적대 신경망(generative adversarial network, GAN)’이 만들어내는 것으로, GAN은 학습한 데이터를 토대로 실제 같은 가짜 샘플을 만들어낼 수 있게 학습한 인공지능(AI)의 일종이다.

그러나 CGI 영화와 광고에도 활용되고 있는 이러한 ‘가짜 얼굴’이 생각만큼 유일무이하지는 않은 듯하다. ‘이 사람은 (아마도) 존재한다(This Person (Probably) Exists)’라는 제목의 논문을 발표한 연구팀은 GAN이 생성한 얼굴 중 상당수가 학습 데이터로 사용된 실제 사람의 얼굴과 놀라울 만큼 닮았다는 사실을 밝혀냈다. 연구팀에 따르면, 가짜 얼굴을 토대로 GAN이 학습할 때 사용했던 실제 얼굴을 알아낼 수 있으며, 실제 얼굴 주인의 정체를 파악하는 것도 가능하다. 이번 연구는 신경망이 내부에서 벌어지는 일에 관해서 아무것도 드러내지 않는 ‘블랙박스’와 같다는 생각에 의문을 제기하는 가장 최신 연구이다.

프랑스 캉노르망디대학교의 라이언 웹스터(Ryan Webster)와 동료 과학자들은 숨겨진 학습 데이터를 알아내기 위해, 특정 데이터가 인공신경망 모델 학습에 사용됐는지 확인할 때 쓸 수 있는 ‘멤버십 공격(membership attack)’이라는 방식을 사용했다. 이러한 공격은 일반적으로 AI 모델이 학습에 사용했던(즉, 이전에 수천 번 봤던) 데이터를 대하는 방식과 처음 보는 데이터를 대하는 방식 간에 드러나는 미묘한 차이를 이용한다.

예를 들어, AI 모델은 이전에 본 적 없는 생소한 이미지를 정확하게 식별할 수 있지만, 그런 경우에는 이전에 학습했던 데이터를 대할 때보다 신뢰도가 약간 낮을 수 있다. 공격 모델은 첫 번째 모델의 행동에서 그런 차이점을 감지해서 그 차이점을 토대로 사진과 같은 특정 데이터가 첫 번째 모델의 학습 데이터에 포함되어 있는지 예측할 수 있다.

이러한 공격은 심각한 보안 유출로 이어질 수 있다. 예를 들어, 누군가의 의료 데이터가 어떤 질병과 관련된 모델을 학습시키는 데 사용됐다면, 학습 데이터가 노출될 경우 그 사람이 해당 질병이 앓고 있다는 사실이 드러날 수도 있기 때문이다.

웹스터가 이끄는 연구팀은 연구를 확장해서 GAN을 학습하는 데 사용한 정확한 사진을 밝혀내는 대신에, 학습에 사용한 사진과 정확히 일치하지는 않지만 그 사진 속 인물을 보여주는 다른 사진들을 찾아냈다. 이 작업을 위해서 연구팀은 GAN으로 얼굴을 생성한 뒤, 별개의 얼굴인식 AI를 이용해서 GAN으로 생성한 얼굴과 같은 정체성을 가진 얼굴이 학습 데이터에 포함된 사진들 속에 들어있는지 알아냈다.

결과는 매우 놀라웠다. 많은 경우에 연구팀은 GAN으로 생성한 가짜 얼굴과 일치하는 것으로 보이는 학습 데이터 속 실제 사람의 사진을 여러 장 찾아낼 수 있었고, AI가 학습한 사진 속 사람들의 정체를 드러낼 수 있었다.

각 상자의 왼편에 있는 사진은 GAN이 생성한 가짜 얼굴이며, 그 옆에 있는 사진 세 장은 학습 데이터에서 찾아낸 실제 인물의 사진들이다. / 캉노르망디대학교

이 작업은 심각한 개인정보 침해 우려를 제기한다. 엔비디아(Nvidia)의 학습 및 지각 연구 담당 부사장 얀 카츠(Jan Kautz)는 “인공지능 업계는 학습된 심층신경망 모델을 공유할 때 잘못된 보안 의식을 가지고 있다”고 설명했다.

이론상 이런 종류의 공격은 생체 측정 데이터나 의료 데이터 같은 민감한 개인정보에도 적용될 수 있다. 다른 한편으로 웹스터는 사람들이 자신들의 데이터가 동의 없이 AI 학습에 사용되고 있는지 확인할 때도 이 기술을 사용할 수 있다고 말했다.

예술가들도 자신들의 작품이 GAN을 학습하는 상업적 도구에 사용되었는지 확인할 수 있다. 웹스터는 “우리가 사용한 것과 같은 방식을 이용해 저작권 침해의 증거를 찾을 수도 있다”고 설명했다.

이 방식은 GAN이 애초에 개인적인 데이터를 노출하지 않도록 확인할 때도 사용될 수 있다. GAN이 생성한 사진을 내보내기 전에, 웹스터의 연구팀이 개발한 기술을 사용해서 그 사진이 학습 데이터에 포함된 실제 사진과 닮았는지 확인하는 것이다.

그러나 웹스터의 팀이 제안한 모든 작업은 학습 데이터를 보유하고 있을 때만 가능한 일이라고 카츠는 지적했다. 그를 비롯한 엔비디아의 동료들은 학습 데이터에 접근할 필요 없이 얼굴 사진과 의료 기록 같은 개인정보를 드러내는 다른 방법을 생각해냈다.

이들은 학습된 모델이 데이터를 처리할 때 거치는 과정을 반대로 되돌리는 방식으로 학습 데이터를 다시 만들어내는 알고리즘을 개발했다. 학습된 이미지 인식망의 경우, 신경망은 이미지에 포함된 내용을 식별하기 위해 몇 개의 인공 뉴런 층을 사용한다. 각 층은 이미지의 윤곽에서 형태를 거쳐 더 정확하게 인식할 수 있는 특징에 이르기까지 각기 다른 단계의 정보를 추출한다.

카츠가 이끄는 팀은 이러한 단계의 중간에 개입해 이미지 처리 과정을 반대로 되돌려서 모델의 내부 데이터로부터 입력 이미지를 다시 만들어낼 수 있다는 것을 발견했다. 그들은 다양한 이미지 인식 모델과 GAN을 대상으로 이 방식을 테스트했다. 한 테스트에서 연구팀은 가장 잘 알려진 이미지 인식 데이터 세트인 ‘이미지넷(ImageNet)’에서 가져온 이미지를 정확하게 다시 만들어낼 수 있었다.

이미지넷(ImageNet)의 사진(위)과 이미지넷으로 학습한 모델의 이미지 처리 과정을 반대로 돌려서 만들어낸 이미지(아래) / NVIDIA

웹스터의 작업과 마찬가지로 새로 만들어낸 이미지는 실제 이미지와 매우 유사하다. 카츠는 “최종 결과물의 품질을 보고 깜짝 놀랐다”고 표현했다.

연구자들은 이런 종류의 공격이 단순한 가설에 불과하지 않다고 주장한다. 스마트폰과 다른 소형 기기들도 AI를 사용하는 일이 늘어나고 있는데, 이러한 기기들은 배터리와 메모리 제한으로 인해 기기 자체에서 AI 모델을 절반 정도 처리하고 나머지는 클라우드로 전송해 처리하는 분할 컴퓨팅(split computing) 방식을 사용할 때가 있다. 카츠에 따르면, 대부분의 연구자들은 이러한 방식을 사용해도 AI 모델만 공유되기 때문에 휴대폰에 있는 개인정보는 노출되지 않을 것이라고 추정한다. 그러나 카츠의 팀이 개발한 공격 모델은 그러한 추정이 사실이 아님을 드러냈다.

카츠와 동료들은 현재 AI 모델에서 개인정보 유출을 방지하는 방법을 연구하고 있다. 그는 위험을 이해했으니 취약성을 줄이고 싶다고 설명했다.

두 연구팀이 매우 다른 기술을 사용하고 있기는 하지만, 카츠는 자신의 방식과 웹스터 팀의 방식이 상호 보완적이라고 생각한다. 웹스터의 팀은 모델의 결과물에서 개인정보를 찾아낼 수 있다는 것을 알아냈고, 카츠의 팀은 모델의 데이터 처리 과정을 반대로 돌려서 입력 데이터를 다시 만들어내는 방식으로 개인정보를 드러낼 수 있다는 것을 보여줬기 때문이다. 카츠는 “두 가지 접근방식을 모두 검토하면 공격을 막을 방법에 대한 이해를 높일 수 있을 것”이라고 말했다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.