fbpx
A major AI training data set contains millions of examples of personal data

AI 훈련 데이터서 신분증·이력서 등 개인정보 무더기 발견

생성형 AI 모델 훈련에 사용되는 세계 최대 규모의 오픈소스 데이터세트 중 하나에서 개인 식별이 가능한 기밀 정보가 다수 발견되어 AI 모델 개발 과정에서 개인정보 침해 가능성에 대한 경각심이 커지고 있다.

여권, 신용카드, 출생증명서 등 개인을 식별할 수 있는 정보가 포함된 문서 이미지 수백만 장이 세계 최대 규모의 오픈소스 AI 학습 데이터세트 중 하나인 ‘데이터컴 커먼풀(DataComp CommonPool, 이하 커먼풀)’에 포함되어 있을 가능성이 높다는 새로운 연구 결과가 나왔다.

카네기멜런대학교 연구진이 대규모 AI 이미지 생성 모델 훈련에 사용되는 오픈소스 이미지-텍스트 페어(image-text pair) 데이터세트인 커먼풀 일부를 분석한 결과, 신원 식별이 가능한 얼굴을 포함해 PII(개인 식별 정보)가 담긴 수천 장의 이미지가 발견됐다. 연구진은 전체 데이터의 단 0.1%만 분석했음에도 이 같은 결과가 나타난 점에 주목하며, 전체 데이터세트에는 얼굴과 신분증 등 개인정보가 담긴 이미지가 수백만 장에 이를 것으로 추정했다. 해당 연구는 이달 초 논문 공유 플랫폼 아카이브(arXiv)에 게재됐다.

연구 공동 저자인 AI 윤리학 박사후연구원 윌리엄 애그뉴(William Agnew)는 “인터넷에 공개된 정보는 무엇이든 수집될 가능성이 있으며, 실제로 그렇게 되고 있다고 생각해야 한다”고 지적했다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!