How our data encodes systematic racism

세상을 차별하는 데이터인가? 차별하는 세상을 반영하는 데이터인가?

데이터와 알고리즘에 불필요한 이데올로기가 반영될 수 있다. 해로운 이데올로기에 대한 책임은 누구에게 있는 것인가?

나는 그동안 “데이터는 거짓말을 하지 않는다”는 말을 자주 들었다. 하지만 내 경험으로는 절대 그렇지 않다. 나의 경우 데이터는 늘 거짓말을 한다. 구글에서 ‘건강한 피부(healthy skin)’를 키워드로 넣고 이미지를 검색하면 창백한 피부를 가진 여성의 사진만 검색되고, ‘흑인 소녀(black girls)’를 넣으면 포르노 사진이 나온다. 셀럽(CelebA)가 제공하는 얼굴사진 데이터세트에는 ‘큰 코’, ‘두툼한 입술’ 같은 카테고리가 있다. 여기에는 나처럼 피부색이 어두운 여성의 사진이 압도적으로 많다. 이미지넷(ImageNet)으로 훈련한 모델은 나를 ‘나쁜 사람’, ‘마약 중독자’, ‘실패자로 분류한다. 피부암 발견을 위해 구축된 데이터세트에는 피부색이 어두운 사람의 표본은 들어있지 않다.

백인 우월주의는 종종 폭력 속에서 정체를 드러낸다. 붐비는 월마트나 교회에서 벌어진 총기 난사사건이 그렇고, 증오가 깃든 비난이나 어깨를 거칠게 치고 가는 행인이 내뱉는 날카로운 말이 그렇다. 그런데 때로는 앞에서 말한 거짓말처럼 좀 더 미묘한 형태로 모습을 드러내기도 한다. AI 시스템을 구축하는 사람이 데이터 수집 방식에서 데이터세트 정의 방식과 사용법 선택까지의 모든 단계에 백인 우월주의라는 뻔뻔한 거짓말이 침투하도록 허용한다면 어떻게 될까? 그 결과는 심각할 수밖에 없다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!