
인공지능을 위한 합성 데이터
핵심 플레이어: 합성 데이터 볼트(Synthetic Data Vault), 신테그라(Syntegra), 데이터젠(Datagen), 신세시스 AI(Synthesis AI)
실용화 시기: 현재
지난해 데이터 사이언스 나이지리아(Data Science Nigeria) 연구원들은 컴퓨터 비전 알고리즘(computer-vision algorithm)을 학습시키려는 공학자들이 선택할 수 있는 데이터 세트 중에 서양 의복을 보여주는 데이터 세트는 매우 많은 반면, 아프리카 의복을 보여주는 데이터 세트는 전혀 없다는 점에 주목했다. 연구팀은 데이터 세트의 이러한 불균형을 해결하기 위해 AI를 이용해서 아프리카 의상을 보여주는 가상 이미지들을 생성했다. 이들이 만들어낸 것은 무(無)에서 창조해 낸 완전히 새로운 데이터 세트였다.
이러한 합성 데이터(synthetic data), 다시 말해 실제 항목과 동일한 통계적 특성을 가진 ‘컴퓨터 생성 샘플들’이 데이터가 절실하게 필요한 머신러닝 세상에서 점점 더 흔해지고 있다. 이러한 ‘가짜’ 데이터는 의료 기록이나 개인의 금융 데이터처럼 실제 데이터가 부족하거나 실제 데이터를 사용하기에는 너무 민감한 분야에서 AI를 학습시키는 데 이용될 수 있다.
합성 데이터라는 개념은 새로운 것이 아니다. 일례로 자율주행 자동차도 가상 도로에서 학습해왔다. 그러나 지난해에 수많은 스타트업과 대학들이 서비스를 제공하기 시작하면서 합성 데이터 기술이 광범위하게 사용되기 시작했다. 예를 들어 데이터젠과 신세시스 AI는 디지털로 생성한 사람 얼굴 이미지를 제공하며, 다른 기업들은 금융과 보험에 관한 합성 데이터를 제공한다. 2021년에 MIT의 ‘데이터 투 에이아이 랩(Data to AI Lab)’이 출시한 프로젝트 ‘합성 데이터 볼트’는 다양한 합성 데이터를 생성할 수 있는 오픈 소스 도구를 제공한다.
합성 데이터의 이러한 유행을 주도하고 있는 것은 이미지든 의료 기록이든 상관없이 진짜 같은 ‘가짜’ 데이터를 생성하는 데 능숙한 AI 유형인 ‘GAN(Generative Adversarial Network, 생성적 적대 신경망)’이다.
합성 데이터를 옹호하는 이들은 합성 데이터를 이용하면 수많은 데이터에 만연한 편향을 피할 수 있다고 주장한다. 그러나 그러한 주장이 성립하려면, 합성 데이터를 생성하기 위해 AI 학습에 이용하는 실제 데이터가 충분해야 한다. 예를 들어, 흑인 얼굴보다는 백인 얼굴 이미지를 더 많이 학습한 GAN도 흑인 얼굴 비율이 높은 합성 데이터 세트를 만들 수는 있을 것이다. 그러나 그렇게 생성된 흑인 얼굴들은 원본 데이터의 부족으로 인해 실물과 그다지 비슷하지 않을지도 모른다.
By 윌 더글러스 헤븐(Will Douglas Heaven)