STEPHANIE ARNETT/MIT TECHNOLOGY REVIEW | ADOBE STOCK, ENVATO
A major AI training data set contains millions of examples of personal data
AI 훈련 데이터서 신분증·이력서 등 개인정보 무더기 발견
생성형 AI 모델 훈련에 사용되는 세계 최대 규모의 오픈소스 데이터세트 중 하나에서 개인 식별이 가능한 기밀 정보가 다수 발견되어 AI 모델 개발 과정에서 개인정보 침해 가능성에 대한 경각심이 커지고 있다.
여권, 신용카드, 출생증명서 등 개인을 식별할 수 있는 정보가 포함된 문서 이미지 수백만 장이 세계 최대 규모의 오픈소스 AI 학습 데이터세트 중 하나인 ‘데이터컴 커먼풀(DataComp CommonPool, 이하 커먼풀)’에 포함되어 있을 가능성이 높다는 새로운 연구 결과가 나왔다.
카네기멜런대학교 연구진이 대규모 AI 이미지 생성 모델 훈련에 사용되는 오픈소스 이미지-텍스트 페어(image-text pair) 데이터세트인 커먼풀 일부를 분석한 결과, 신원 식별이 가능한 얼굴을 포함해 PII(개인 식별 정보)가 담긴 수천 장의 이미지가 발견됐다. 연구진은 전체 데이터의 단 0.1%만 분석했음에도 이 같은 결과가 나타난 점에 주목하며, 전체 데이터세트에는 얼굴과 신분증 등 개인정보가 담긴 이미지가 수백만 장에 이를 것으로 추정했다. 해당 연구는 이달 초 논문 공유 플랫폼 아카이브(arXiv)에 게재됐다.
연구 공동 저자인 AI 윤리학 박사후연구원 윌리엄 애그뉴(William Agnew)는 “인터넷에 공개된 정보는 무엇이든 수집될 가능성이 있으며, 실제로 그렇게 되고 있다고 생각해야 한다”고 지적했다.