The promise and pitfall of synthetic data in training AI system

합성 데이터의 시대가 오고 있다

신뢰도 높은 AI 시스템을 구축하려면 양질의 데이터가 필요하지만 AI 모델의 훈련에 필요한 데이터를 구하기는 쉽지 않다. 원본 데이터의 통계적 변수 분포와 상관관계 등을 모방한 합성 데이터(재현 데이터)는 고질적인 데이터 병목현상을 해소할 수 있다.

데이터 부족의 문제

AI 개발자들은 몇 가지 골치 아픈 이슈들에 직면해 있다. 우선, AI 개발 과정에서 기업들은 데이터를 절실히 필요로 한다. 올바른 데이터 구하기는 강력한 AI를 구축하는 데 가장 중요하면서도 가장 어려운 부분이다. 예컨대, 의료용 AI 개발자가 고품질의 병변 데이터를 구하기는 ​​어렵다. 이러한 데이터 공급의 한계는 AI의 발전 속도를 느려지게 만드는 요인이다.

둘째, 데이터 품질이 낮거나 데이터 세트에서 개인 정보가 노출되는 문제가 종종 발생한다. 데이터 품질의 문제는 AI 모델의 판단이 편향되거나 공정(fair)하지 않을 수 있다는 불신으로 번지게 된다. “쓰레기 데이터를 넣는다면 쓰레기가 나온다(garbage in, garbage out)”는 격언은 실무에서 여전히 유효하다. 질 낮은 데이터는 AI 모델의 연산을 거친 결과값을 신뢰할 수 없게 만든다.  

셋째, AI 모델에 데이터를 공급할 때 데이터의 원본에서 개인 정보를 제거하고 사회적 불평등 논란을 미리 방지해야 한다. 정확한 예측 결과를 제공하려면 데이터 세트가 편향되지 않아야 하고 강화된 개인 정보보호 규정까지 준수해야 한다.  데이터를 구하기가 어려워지자 많은 기업들은 합성 데이터(synthetic data)에 주목하기 시작했다. 합성 데이터를 사용하면 훨씬 빠르고 적은 비용으로 AI 모델의 훈련 데이터를 확보할 수 있다. 오늘날 세계에서 가장 귀중한 자원은 데이터인데, 이 데이터를 무한한 양으로 저렴하고 빠르게 생산할 수 있는 방법이 있다면 기업의 입장에서는 관심을 가질 수밖에 없다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!