정보 삭제만으로 끝낼 수 없는 싸움

내 허락도 없이 내 사진이 인터넷에 돌아다니면서 여러 기업의 연구자료로 활용되고 있다는 사실을 알게 됐다면? 그런 내 사진을 아무리 지우려고 해도 모두 지울 수 없다는 사실을 깨닫고 좌절할 수밖에 없다면? 삭제만으로 해결할 수 없는 ‘비윤리적’인 개인정보 유포 문제를 살펴보고, 이에 대한 해결책을 모색해본다.

마이크로소프트는 2016년 최대 규모의 얼굴 사진 데이터베이스를 전 세계에 배포했다. 안면인식 기술을 발전시키는 데 좋은 촉진제가 될 것이라는 기대에서였다. ‘MS-Celeb-1M’로 명명된 이 데이터 세트는 10만 명에 달하는 유명인(celebrity) 이미지 1,000만 개로 구성되어 있었다. 다만 여기서 ‘유명인’의 정의는 불분명했다.

그로부터 3년 후 이루어진 연구에서 애덤 하비(Adam Harvey)와 줄스 라플라스(Jules LaPlace)는 문제의 데이터 세트를 샅샅이 살펴봤다. 그런데 그 과정에서 기자, 예술가, 활동가, 학자를 비롯해 업무나 작업과 관련해 온라인에서 활동했던 수많은 평범한 개인들의 얼굴 사진이 데이터 세트에 포함되어 있다는 사실을 발견했다. 이중 누구의 동의도 없이 그들의 얼굴은 데이터 세트와 함께 외부 세계에 유출되었다. 얼굴 사진 데이터 세트는 페이스북, IBM, 바이두, 그리고 중국 공안에 기술을 지원하는 중국 최대 안면인식 기술 기업인 센스타임(SenseTime) 등 여러 기업의 연구에 쓰였다.

하비와 라플라스의 조사 직후 언론의 비난을 받은 마이크로소프트는 단지 “본 연구과제는 종료되었다”고 말하면서 데이터 세트를 삭제했다. 그러나 이 사건으로 촉발된 사생활 침해 문제는 인터넷 상에 사라지지 않고 남아 있다. 비슷한 사례가 또 있다는 점도 문제다.

이미지와 텍스트를 얻기 위한 웹 스크래핑은 한때 실제 데이터를 수집하는 창의적인 전략으로 여겨졌다. 하지만 GDPR(유럽의 데이터 보호 규제, Europe’s data protection regulation)과 같은 법이 제정되고, 개인정보보호 및 감시에 대한 대중의 우려가 커짐에 따라 최근 이러한 관행은 법적으로 위험하고 부적절한 행위로 취급된다. 그 결과 AI 연구자들은 점차 웹 스크랩으로 만들어진 데이터 세트를 철회하고 있다.

그럼에도 불구하고 이번에 새롭게 발표된 연구에서는 이와 같은 노력이 문제의 데이터 확산과 이용을 막지 못한다는 걸 알아냈다. 논문 저자들은 얼굴이나 사람 이미지를 포함한 데이터 세트 중 가장 널리 인용된 세 개를 선택했다. 이 중 두 개는 이미 원작자에 의해 철회된 것이었다. 저자들은 1,000개에 가까운 논문을 검토하며 각각의 데이터 세트가 복사, 사용, 용도 변경된 방식을 추적했다.

먼저 MS-Celeb-1M의 경우, 데이터 세트 복사본은 여전히 제3자 웹사이트와 원본 데이터 세트 위에 구축된 파생 데이터 세트 상에 존재하는 것으로 나타났다. 이 데이터로 사전학습한(pre-trained) 오픈소스 모델도 여전히 쉽게 접할 수 있었다. MS-Celeb-1M 데이터 세트와 파생 데이터 세트는 철회 후 6개월에서 18개월 사이에 발표된 수백 개의 논문에서 인용되기도 했다.

듀크 대학 캠퍼스를 거니는 사람들의 이미지를 수집한 데이터 세트인 ‘DukeMTMC’도 MS-Celeb-1M과 같은 달에 철회되었지만, 마찬가지로 파생 데이터 세트와 수백 개의 논문에 인용되어 남아있었다.

연구의 공동 저자인 프린스턴 대학교 2학년생 케니 펭(Kenny Peng)은 “데이터가 남아 있는 곳은 처음에 생각했던 것보다 더 광범위하다”라고 말한다. 그는 연구논문에 인용된 것이 상업적 데이터 활용 사례를 모두 반영하지 않기 때문에 이조차도 과소평가된 것으로 봤다.

통제 불능 상태

프린스턴 대학 연구에서는 데이터 세트가 통합될 경우 원작자가 급속도로 자기 창작물에 대한 통제력을 잃는 점 또한 문제로 지적한다.

데이터 세트가 특정한 목적을 가지고 배포되었더라도, 이는 얼마든지 원작자가 의도하거나 상상하지 못했던 방식으로 다른 데이터 세트와 빠르게 합쳐질 수 있다. 예를 들어, MS-Celeb-1M은 당초 유명인들의 얼굴 인식을 개선하기 위한 것이었지만, 그 이후로 더 일반적인 얼굴 인식과 생김새 분석에 사용되고 있다는 사실이 연구를 통해 밝혀졌다. 이는 인종별로 이미지를 분류해 사회적으로 논란을 일으켰던 ‘야생의 인종별 얼굴(Racial Faces in the Wild)’과 같은 파생 데이터 세트에서도 재가공되고 재사용되었다.

연구진은 또한 인터넷에서 스크랩된 얼굴 사진들을 최초로 사용한 데이터 세트인 ‘LFW(Labeled Faces in the Wild)’가 2007년 처음 도입된 후 약 15년의 사용 기간 동안 여러 번 변형되었다고 분석했다. 이 데이터 세트는 연구 목적이라는 틀 안에서 안면인식 모델을 평가하기 위한 자료로 사용되기 시작했지만, 현재는 실제 상황에서 사용하기 위한 시스템을 평가하는 데 전적으로 활용되고 있다. 데이터 세트 웹사이트에 이러한 용도 변경 및 활용에 대한 경고문이 표시되었음에도 불구하고 발생한 일이다.

좀 더 최근에는 이 데이터 세트가 ‘SMFRD’라는 파생 모델로 용도 변경되어 사용되기도 했다. SMFRD는 코로나19 팬데믹(대유행) 기간 동안 얼굴 인식 정확도를 향상하기 위해 각각의 이미지에 안면 마스크를 추가했다. 저자들은 이것이 새로운 윤리적 문제를 제기할 수 있다고 지적했다. 가령 개인정보보호 옹호자들은 이 기술이 특히 복면 시위자들을 식별할 수 있게 한다는 점을 지적하면서, 이러한 애플리케이션이 감시를 강화한다고 비판해 왔다.

AI 윤리 연구자이자 책임감 있는 데이터 활용에 앞장서고 있는 마가렛 미첼(Margaret Mitchell)은 연구에 참여하지 않았지만, 이 연구를 “일반적으로 사람들이 데이터 세트의 복잡성과 잠재적 위해성, 위험성을 경시해왔기 때문에 매우 의미 있는 논문”이라고 높이 평가했다.

그녀는 데이터를 단지 사용하기 위해 존재하는 것으로 여겼던 AI 커뮤니티의 오랜 문화도 문제 삼고 있다. 이 논문은 이러한 인식이 어떤 근본적인 문제로 이어질 수 있는지 보여준다. “데이터 세트를 인코딩하는 다양한 값, 그리고 사용 가능한 데이터 세트가 인코딩하는 값을 철저히 따져보는 것이 중요하다”고 그녀는 말했다.

개선 노력의 필요성

연구 저자들은 AI 커뮤니티의 향후 취해야 할 몇 가지 권고사항을 전한다. 첫째, 데이터 세트 제작자는 라이선스와 상세한 문서를 통해 본인이 의도한 데이터 세트의 사용에 대해 더욱 명확하게 소통하고, 특히 파생 데이터 세트를 구축하려고 할 경우 연구자에게 동의서에 서명하거나 신청서를 작성하도록 요청함으로써 데이터에 대한 접근에 더 엄격한 제한을 두어야 한다는 것이다.

둘째, 연구 콘퍼런스에서 데이터 수집, 라벨링, 사용에 대한 규범을 확립하고, 책임 있는 데이터 세트 생성에 대한 인센티브를 두어야 한다는 것이다. 최대 규모의 AI 연구 콘퍼런스인 NeuIPS에는 이미 우수 사례와 윤리 지침에 대한 점검표가 있다.

미첼은 여기서 더 나아가야 할 필요성을 역설했다. 일명 ‘빅사이언스(BigScience) 프로젝트’에서 AI 연구진들은 엄격한 윤리 기준 아래 자연어 구문을 분석하고 만들어내는 AI 모델을 개발하기 위해 협력하고 있다. 이 프로젝트의 일환으로 미첼은 데이터 세트 관리 조직을 만드는 아이디어를 가지고 실험해왔다. 여기서 데이터 세트 관리 조직이란, 데이터의 큐레이션, 유지 및 사용을 관리할 뿐 아니라 변호사, 활동가, 일반 대중과 협력해 데이터가 법적 표준을 준수하는 선에서 동의한 경우에만 수집되며 누군가가 개인정보를 철회하기로 선택할 경우 제거될 수 있는지 확인하는 사람들을 뜻한다. 이러한 조직은 모든 데이터 세트에 필요한 것은 아니지만 생체 인식 또는 개인식별 정보 또는 지적 재산을 포함할 수 있는 스크랩된 데이터에는 확실히 있어야 한다.

미첼은 “데이터 세트 수집과 모니터링은 한두 사람이 할 일회성 작업이 아니다”라며 “책임감 있게 이 작업을 수행하자면, 이는 수많은 작업으로 세분화되며 여기에는 분별력 있는 사고와 깊은 전문성 및 다양한 배경의 사람들이 필요하다”라고 힘주어 말했다.

최근 몇 년 동안, 이 분야는 더욱 세심하게 큐레이션된 데이터 세트가 업계의 많은 기술적, 윤리적 과제를 극복하는 데 핵심이 될 것이라는 믿음을 향해 나아가고 있다. 이제 좀 더 책임감 있는 데이터 세트를 구축하는 것만으로는 충분하지 않다는 것이 분명해졌다. AI 업계 관계자들 또한 데이터 세트를 윤리적으로 유지하고 사용하기 위해 장기적으로 노력해야 한다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.