These creepy fake humans herald a new age in AI

이 가짜 얼굴이 AI의 새로운 시대를 알린다

딥러닝에 사용할 데이터가 필요하다면 데이터 생성 회사에 문의하면 된다.

코 밑에는 수염 자국이 있고 이마에 주름과 잡티도 있는 이 남자는 사실 진짜 사람이 아니라, 진짜 사람을 모방하여 만든 가상의 인물이다. 데이터젠(Datagen)은 이 남자 외에도 수십만 명의 가짜 사람 데이터를 만들어 판매하는 기업이다.

데이터젠이 만드는 가짜 사람은 게임 아바타나 영화에 나오는 애니메이션 캐릭터가 아니라 딥러닝 알고리즘의 학습에 투입될 데이터다. 데이터젠을 비롯한 기업들이 많은 비용과 시간이 투입되는 실제 데이터 수집을 대체할 강력한 방법을 제안한다. 고객이 언제 어떤 데이터를 원하든 비교적 저렴한 가격에 데이터를 만들어 주겠다는 것이다.

데이터젠이 합성 데이터를 만드는 과정은 진짜 사람을 스캔하는 것으로 시작된다. 데이터젠과 계약한 협력업체가 동의서에 서명한 진짜 사람을 전신 스캐너로 촬영하면, 이들의 홍채, 피부결, 손가락의 굽은 모양까지 그대로 로우데이터(raw data)로 만들어진다. 데이터젠이 이를 전달받아 알고리즘으로 학습을 시키면 사람의 몸과 얼굴, 눈, 손이 3D로 재현될 수 있다.

이스라엘에 본사를 둔 데이터젠은 이미 미국의 주요 기술 기업들과 협력하고 있다. 데이터젠의 가장 강력한 라이벌 신세시스 AI(Synthesis AI)도 주문형 합성 데이터(synthetic data) 제작 서비스를 제공한다. 그 밖에 금융, 보험, 보건 등 다양한 분야에서 많은 기업이 이 같은 서비스를 제공하고 있다. 아마 데이터의 종류만큼 많은 데이터 합성 기업이 존재할 것이다.

한 때 합성 데이터가 실제 데이터보다 못하다는 인식이 있었다. 그렇지만 지금은 합성 데이터를 ‘만능 도구’로 보는 시각도 존재한다. 실제 데이터는 지저분하고(messy) 매우 편향적이다. 새로운 데이터 프라이버시 규제로 인해 수집하기도 어렵다. 반면 합성 데이터는 오염에서 자유롭고(pristine) 다양성을 강화한 데이터세트를 구성할 때에도 활용될 수 있다. 모든 연령, 민족, 형태의 얼굴을 완벽하게 라벨링 할 수 있는 만큼, 모든 인구 집단에 적용할 수 있는 안면 인식 시스템의 구축도 가능하다. 

그렇지만 합성 데이터에도 한계는 존재한다. 만약 합성 데이터가 현실을 제대로 반영하지 못 한다면, 지저분하고 편향적인 실제 데이터로 훈련한 것보다 못한 제품을 내놓을 수도 있다. 또는 기존 AI가 가진 문제를 그대로 답습할 수도 있다. “이런 문제에 눈을 감은 채 ‘합성 데이터가 많은 문제를 해결해줄 것’이라고 말할 수는 없다”고 알고리즘 감사기업 ORCAA 창업자 겸 데이터과학자 케이시 오닐(Cathy O’Neil)은 말한다. “그 역시 많은 것을 해결하지 못하고 방치할 것이기 때문이다.”

진짜 같지만 진짜는 아닌

딥러닝에서는 무엇보다 데이터가 중요하다. 특히 지난 몇 년 사이 AI 업계는 좋은(good) 데이터가 대량(big) 데이터보다 중요하다는 것을 깨달았다. 소량이라도 라벨링이 잘된 데이터는 대량이지만 제대로 선별되지 않은 데이터 또는 심지어 더 진화된 알고리즘보다 AI 시스템 성능 개선에 더 뛰어난 효과를 발휘한다.

이는 기업이 AI 모델 개발에 접근하는 방식에 변화를 가져온다고 데이터젠 CEO 겸 공동창업자 오퍼 차콘(Ofir Chakon)은 설명한다. 현재 AI 모델 개발은 먼저 데이터를 최대한 많이 확보한 후, AI의 성능을 개선하기 위해 알고리즘을 다양하게 수정하는 방식으로 진행되고 있다. 차콘의 말은 이 순서를 뒤집어, 알고리즘은 동일하게 사용하되 데이터의 구성을 향상시킨다는 뜻이다.

문제는 데이터의 구성을 바꾸면서 실험을 반복하기 위해서는 실제 데이터 수집 과정에 시간과 비용을 집중 투자해야 한다는 점이다. 데이터젠은 바로 이 지점을 파고든다. 데이터젠의 합성 데이터 생성 도구는 AI 모델의 성능을 극대화하는 데이터세트를 찾기 위해 하루에도 수십 개의 데이터세트를 생성하고 시험한다.

데이터젠은 합성으로 만든 가짜 사람 주변에 배치할 가짜 가구와 실내 환경 등도 생성한다. | 데이터젠

데이터의 사실성을 높이기 위해 데이터젠은 연령 집단, 민족, BMI 구간 별로 촬영할 사람의 수와 피촬영자가 취할 행동(방안에서 돌아다니기, 음료수 마시기 등) 등을 담은 상세한 지침을 협력업체에 보낸다. 협력업체는 지침에 따라 촬영된 장면을 고해상도 사진 및 동영상으로 만들어 데이터젠에 보낸다. 그러면 데이터젠은 이 데이터를 알고리즘에 입력하여 다양한 조합을 통해 데이터를 수십만 가지로 확장한다. 합성된 데이터를 재검증하기도 한다. 예를 들어, 가짜 얼굴을 골라 내는 실험을 통해 합성된 얼굴이 얼마나 사실적인지 확인하는 식이다.

현재 데이터젠은 얼굴 표정을 합성하는 작업을 진행하고 있다. 이 데이터는 스마트 자동차 운전자의 주의 집중 상태와 무인 점포 이용객의 행동을 모니터링하고 VR 헤드셋의 홍채 및 손동작 추적 기능을 개선하는 용도로 사용될 예정이다. 데이터젠은 수천만 명이 사용하는 컴퓨터 비전 시스템의 개발에 이미 자사 데이터가 사용되었다고 밝혔다.

가짜 사람 외에도 대량으로 생성되는 합성 데이터가 있다. 클릭인스(Click-Ins)는 합성 데이터 기반 AI를 활용한 자동 차량점검 서비스를 제공하는 스타트업이다. 클릭인스는 필요한 모든 차량과 모델을 디자인 소프트웨어를 활용해 재구성한다. 그 다음, 재구성된 차를 다양한 배경 안에 배치하고 조명을 바꾸면서 색상과 손상, 변형 등을 다양하게 조정한다. 이런 방법으로 클릭인스는 차량 등록번호가 개인정보로 취급되어 AI 훈련용 사진에 번호가 노출되는 것이 금지된 국가에서도 관련 법률을 위반하지 않고 신모델이 출시될 때마다 AI를 업데이트할 수 있다.

모스틀리에이아이(Mostly.ai)는 금융사, 통신사, 보험사가 고객 데이터베이스를 외부 협력업체와 공유할 때 개인정보보호 법률을 위반하는 일이 없도록 가짜 고객 데이터가 입력된 엑셀 문서를 만들어 준다. 기존의 익명화(anonymization) 기법은 데이터세트의 풍요도(richness)를 해치고 프라이버시 보호에도 효과적이지 못하다. 그렇지만 데이터 합성 기법을 사용하면 기업이 보유한 진짜 고객 데이터의 통계적 속성을 그대로 지닌 상세한 가짜 데이터세트를 생성할 수 있다. 또한, 기업이 실제로 보유하지 않은 데이터를 만들 수도 있다. 예를 들어, 기존 고객 집단보다 다양성이 높은 고객 집단을 가상으로 만들거나 예상되는 사기 사건의 시나리오를 만들어볼 수도 있다. 

건물, 실외, 자동차, 도로이(가) 표시된 사진

자동 생성된 설명
클릭인스는 여러가지 배경 속에 다양한 차량과 모델을 배치한다. | 클릭인스

합성 데이터를 옹호하는 이들은 AI 시스템 평가에도 합성 데이터를 활용할 수 있다고 주장한다. 존스홉킨스 대학교(Johns Hopkins University)에서 기계학습 및 보건을 가르치는 수치 사리아(Suchi Saria) 교수와 공동저자들은 최근 국제회의에서 발표한 논문을 통해 데이터 생성 기법을 활용해 단일 데이터세트에서 다양한 환자 집단을 추출하는 방법을 시연했다. 이 방법은, 이를테면, 뉴욕시 청년 거주자에 관한 자료만 보유한 기업이 당뇨병 환자 비율이 높은 고령층을 대상으로 자사 AI 시스템이 제대로 작동할지 알고 싶을 때 쓰일 수 있다. 사리아 교수는 이 방법을 활용한 AI 의료시스템 테스트 업체 베이시언헬스(Bayesian Health)를 최근 직접 설립했다.

합성 데이터의 한계

혹시 합성 데이터의 장점이 과장된 것은 아닐까?

프라이버시와 관련하여, “데이터가 ‘합성’되고 실제 사용자 데이터와 직접 매칭되지 않는다고 해서 진짜 사람에 관한 민감한 정보가 코딩되지 않는 것은 아니다”라고 펜실베이니아 대학교(University of Pennsylvania)에서 컴퓨터 및 정보과학을 가르치는 애런 로스(Aaron Roth) 교수는 지적한다. 어떤 기법은 훈련 데이터에 있는 것과 비슷한 이미지나 텍스트를 재생산하고, 또 어떤 기법은 데이터를 그대로 복제하게 만드는 공격에 취약하다.

이는 데이터젠 같은 기업에는 별 문제가 되지 않는다. 데이터젠이 제공하는 서비스의 목적이 스캔에 동의한 사람의 신원을 감추는 데 있지 않기 때문이다. 그렇지만 재무 또는 질병 관련 민감한 정보를 보호하려는 목적으로 서비스를 제공하는 기업에는 좋지 않은 소식이다.

연구에 따르면 차등 프라이버시(differential privacy) 및 생성적적대신경망(generative adversarial network)이라는 데이터 합성 기법을 결합하면 가장 강력한 수준의 프라이버시 보호를 실현할 수 있다고 워싱턴 대학교 e사이언스연구소의 데이터 과학자 버니스 허먼(Bernease Herman)은 말한다. 그렇지만 이런 미묘한 차이는 자신들이 사용하는 기법이 무엇인지 밝히기를 꺼리는 합성 데이터 공급업체들의 마케팅 과정에서 설자리를 찾지 못할 것이라고 우려하는 이들도 있다.

한편, 합성 데이터가 AI 시스템의 편향성을 효과적으로 완화시킨다는 증거는 거의 없다. 왜곡된 기존 데이터세트에서 추출된 데이터는 아무리 새로운 데이터라고 해도 반드시 대표성이 높아지지는 않는다는 것이다. 예를 들어, 데이터젠이 보유한 로우데이터에는 비교적 적은 수의 소수민족이 포함된 편이다. 이는 데이터젠이 로우데이터에서 가짜 사람 데이터를 생성할 때 사용하는 실제 데이터 포인트의 수도 더 적다는 것을 의미한다. 그렇다고 해서 데이터 생성이 마구잡이로 이루어지는 것은 아니다. 그래도 그런 데이터세트에서 생성된 가짜 사람 데이터는 현실과 차이가 날 가능성이 더 크다. “(백인의) 얼굴에서 피부색만 어둡게 한 것이 (여러 인종 사람들의) 실제 얼굴들을 잘 반영하는 일이 일어나지 않는 한, 문제는 전혀 해결되지 않는다”라고 오닐은 지적한다.

노스이스턴 대학교(Northeastern University)에서 컴퓨터과학을 가르치는 크리스토 윌슨(Christo Wilson) 교수에 따르면 데이터세트의 균형이 완벽하다고 해서 100% 공정한 AI 시스템이 탄생하는 것도 아니다. 어떤 신용카드 회사가 AI 알고리즘을 활용하여 대출 받으려는 사람의 신용 점수를 매기려 한다고 가정해보자. 이 회사가 흑인과 백인을 데이터에 동등하게 반영해도 모든 차별을 방지할 수는 없다. 흑인 및 백인 대출 신청자 간의 차이를 통해서도 차별이 스며들 수 있기 때문이다.

일부 경우이기는 하지만 합성 데이터로는 공정성과 프라이버시를 모두 담보하는 AI 시스템을 만들 수 없다는 초기 연구 결과는 상황을 더 복잡하게 만든다. 토론토 대학교(University of Toronto) 및 벡터 연구소(Vector Institute) 연구팀은 최근 국제회의에서 발표한 논문을 통해 흉부 엑스레이 사진 자료를 토대로 공정성과 프라이버시를 담보하는 AI 시스템 구축을 시도했지만 실패했다고 밝혔다. 이들은 차등 프라이버시 기법과 생성적적대신경망 기법을 결합하여 다양한 합성 데이터세트를 구축하려 했지만, 이 방법으로는 정확한 의료 AI 시스템을 만들 수 없었다.

앞서 지적한 문제들이 있다고 해서 합성 데이터를 사용하지 말아야 한다는 뜻은 아니다. 오히려 합성 데이터는 앞으로 반드시 필요하게 될 것이다. AI 시스템이 규제를 제대로 준수하는지 규제 당국이 시험해야 할 필요성이 높아지고 있다. 이 같은 상황에서, 규제 당국이 시험에 사용할 선별적인 주문형 데이터를 유연하게 생성할 수 있는 유일한 방법은 바로 데이터 합성이라고 오닐은 말한다. 그리고 이로 인해, 데이터 합성의 한계에 관한 질문에 대해 고민하고 답하는 것이 더욱 중요한 문제가 된다.

“데이터 합성은 시간이 지나면 개선되겠지만 어쩌다 저절로 그렇게 되지는 않을 것”이라고 오닐은 말한다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.