Synthetic data for AI

인공지능을 위한 합성 데이터

인공지능(AI)의 이점은 데이터를 이용할 수 있는 분야에 집중되어 있다. 합성 데이터는 데이터가 부족한 분야에서도 AI가 활용될 수 있도록 도움을 줄 것이다.

핵심 플레이어: 합성 데이터 볼트(Synthetic Data Vault), 신테그라(Syntegra), 데이터젠(Datagen), 신세시스 AI(Synthesis AI)

실용화 시기: 현재

지난해 데이터 사이언스 나이지리아(Data Science Nigeria) 연구원들은 컴퓨터 비전 알고리즘(computer-vision algorithm)을 학습시키려는 공학자들이 선택할 수 있는 데이터 세트 중에 서양 의복을 보여주는 데이터 세트는 매우 많은 반면, 아프리카 의복을 보여주는 데이터 세트는 전혀 없다는 점에 주목했다. 연구팀은 데이터 세트의 이러한 불균형을 해결하기 위해 AI를 이용해서 아프리카 의상을 보여주는 가상 이미지들을 생성했다. 이들이 만들어낸 것은 무(無)에서 창조해 낸 완전히 새로운 데이터 세트였다.

이러한 합성 데이터(synthetic data), 다시 말해 실제 항목과 동일한 통계적 특성을 가진 ‘컴퓨터 생성 샘플들’이 데이터가 절실하게 필요한 머신러닝 세상에서 점점 더 흔해지고 있다. 이러한 ‘가짜’ 데이터는 의료 기록이나 개인의 금융 데이터처럼 실제 데이터가 부족하거나 실제 데이터를 사용하기에는 너무 민감한 분야에서 AI를 학습시키는 데 이용될 수 있다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!