AI 비즈니스에서 데이터 윤리는 왜 중요한가?

이제 정확한 데이터 라벨링, 데이터의 윤리적 사용, 프라이버시의 적절한 보호, 알고리즘 편향을 제거하기 위한 노력은 AI 비즈니스의 성패를 좌우하는 요소가 되었다.

많은 기업들은 AI로의 전환을 시도하고 새로운 비즈니스 모델을 찾고 있다. AI는 비즈니스에 새로운 가능성을 열어주지만 한편으로는 데이터 윤리의 리스크도 확장시킨다.

AI 시스템을 구축하려면 무엇보다 데이터가 필요하다. AI가 학습하는 데이터는 먼저 사람이 분류하고 라벨링하는 단계를 거치는데 그 과정에 소요되는 시간은 R&D의 80퍼센트를 차지한다.

인간에 의한 라벨링 오류도 나타나게 된다. 머신 비전에 사용되는 대표적 시각적 데이터세트는 이미지넷(ImageNet)인데 1,400만 건을 보유하고 있다. 스탠포드대의 페이페이 리(Fei-Fei Li)가 유명해진 이유는 이미지 인식 경진대회 때문이었다. 그런데 이미지넷에 라벨링(labeling) 오류가 상당하다는 점이 드러났다.

MIT CASIL 대학원생들이 찾아낸 이미지넷 데이터 라벨링 오류들(https://labelerrors.com)은 다양했는데 꿀벌을 개미로, 개구리를 고양이로 인식하는 오류, 아기 입에 물려진 공갈 젖꼭지를 여성의 유두로 인식하는 오류 뿐만 아니라 인종차별적, 성차별적 라벨링, 동의를 받지 않은 개인 사진까지 발견되었다. 손글씨 숫자 이미지 7만 건으로 이루어진 MNIST 데이터세트에서도 잘못된 라벨링이 발견되었다.

라벨링 오류가 있는 데이터로 AI가 학습한다면 자동적 연산의 결과값은 편향되거나 부정확하게 나오게 된다. 앤드류 응(Andrew Ng)은 AI의 오류와 편향의 6~30%가 라벨링이 잘못된 데이터의 부정확성 때문에 발생할 수 있다고 지적한바 있다. 또한 데이터세트에 포함된 개인 정보는 데이터 정제와 비식별화 처리 작업을 거쳐야 하는데 이 작업이 미흡하다면 프라이버시를 무시한다는 논란에 휩싸일 수 있다. 그런데 AI에 공급하는 데이터 규모가 폭발적으로 늘어나자 데이터를 정제하는 작업은 상당한 부담이 되고 있다.

AI에 사용되는 데이터에 오류가 발견되면 실수로 여겨지기 보다는 AI가 ‘해악적’이라는 윤리적 비난으로 쉽게 전환된다. 질 낮은 데이터나 라벨링 오류가 많은 데이터를 별다른 경계심 없이 사용한다면 AI가 불평등과 차별을 조장하고 프라이버시를 침해한다는 오명을 뒤집어 쓸 수 있다. 몇 년 전까지 AI 윤리나 데이터 윤리는 시민단체들이나 일부 연구소만이 강조하던 주제였다. 예컨대 케이트 크로포드(Kate Crawford)는 이미지넷 룰렛(ImageNet Roulette) 프로젝트를 통해 이미지넷 데이터 라벨링에 인종차별적, 여성혐오적 편향이 있음을 지적하고 있다. 그런데 이런 편향이 발견되는 이유는 2009년에 이미지 분류 작업을 하던 자원봉사자들이 가졌던 인종, 성차별적 편견이 반영되었기 때문으로 추정된다. 이미지넷은 데이터세트를 ‘역편향(debiasing)’하기 위한 작업을 진행하고 있다.

마이크로소프트, 페이스북, 트위터, 구글도 데이터세트가 알고리즘에 공급되는 과정에서 발생하는 잠재적 윤리 문제나 논란의 소지를 찾아내고 대응하기 위한 팀을 두고 있다. 그런데 스타트업들은 가시적 성과를 내야 한다는 압박 때문에 데이터 윤리의 중요성을 소홀히 여길 가능성도 있다. 챗봇 이루다를 둘러싼 논쟁은 양질의 데이터와 AI 윤리가 얼마나 중요한가를 보여주었다. 이루다가 채팅 대화를 위해 학습한 것은 앱 사용자들이 실제로 주고받은 말뭉치 데이터였다. 그런데 말뭉치 데이터에서 장애인이나 성소수자를 차별하는 표현과 개인정보를 추정할 수 있는 데이터를 걸러내지 못하자 윤리성 논란이 불거졌다. 시민단체들은 챗봇이 여성과 성소수자 혐오와 인권 침해를 조장한다며 인권위원회에 진정을 냈다. 이루다의 표현은 불쾌감과 당혹스러움을 느끼기에 충분했지만 그것은 관련성 있는 문장을 택해 채팅창에 올리는 방식이었지 사람의 의사표시도 아니었다.

이루다는 공개되기 이전에 윤리적 검증 과정을 적절히 거치지 않았고 키워드 필터링과 데이터 정제가 불완전했다. 이루다는 집 주소 계좌번호 등 개인을 식별할 수 있는 정보까지 노출시켰다. 챗봇에 사용된 말뭉치 데이터는 1억 건에 이르렀기 때문에 그처럼 대규모의 데이터를 정제하는 작업은 쉽지 않았을 것이다. 챗봇이 소수자를 폄하하는 표현을 남발하고 민감한 정보가 채팅에서 튀어나오자 개발사는 말뭉치 데이터를 폐기하고 서비스를 중단했다.

구글의 자회사 사이드워크랩(Sidewalk Labs)은 토론토시에 인접한 키사이드(Quayside) 지역을 스마트시티로 바꾸겠다는 계획을 세웠다. 이 지역은 온타리오 호수가의 버려진 땅이었다. 그러나 IT 회사가 도시계획 등 사업을 진행하게 된다면 그 과정에서 시민들의 프라이버시가 침범될 것이라는 반대의 목소리가 나왔다.

사이드워크랩은 누구든지 센서를 설치하기 전에 데이터 이용과 수집에 허가를 받도록 하고, 공공의 이익이 되도록 데이터 트러스트Data Trust를 운용하여 개인정보 유출이 없도록 하겠다고 제안했다.

사이드워크랩은 편리한 모빌리티, 스마트 폐기물 처리, 스마트 그리드를 강조했지만 데이터를 어떻게 안전하게 처리할 것인가에 대한 설득은 부족했다. 시민들은 자신들의 데이터가 상시적 감시, 상업적 이익을 위해 사용된다는 불안감을 가지고 있었다.

사이드워크랩은 수천만 달러의 투자금을 쏟아 부었지만 2020년 5월 키사이드 개발 계획을 갑작스럽게 접었다. IT 기업이 데이터를 손에 넣게 되면 프라이버시를 존중하지 않을 것이라는 우려가 스마트시티 프로젝트를 좌절시켰던 것이다.

토론토의 키사이드(Quayside) 지역 (링크)

의료 데이터의 라벨링에는 특히 시간과 비용이 많이 들어간다. 특정한 질환을 판단하는 AI를 개발하려면 그 병변을 보여주는 영상 데이터에 의사들이 병변 부위를 판독하여 데이터로 축적하는 과정을 먼저 거쳐야 한다. 의료 데이터의 수집, 가공, 검수 과정은 특정 병변을 검출하고 분류하는 전문적 의료지식을 요구한다. 엑스레이 사진처럼 진료나 시술에 사용된 영상과 이미지 파일은 대량으로 필요하며 편향된 데이터는 걸러내야 한다. 그러나 의료 영상의 판독문만 있고 예후 정보 데이터가 누락된 사례들도 여전히 발견된다. 데이터가 부정확하다면 진단을 보조하는 AI는 예후 정보를 놓치게 되므로 오진으로 이어질 수도 있다. 이런 이유에서 의료 데이터에는 반복적 정제 작업이 필수적으로 여겨진다. 만일 진단용 AI의 오류가 발생한다면 라벨링에서 비롯될 가능성이 크다.

의료용 영상 데이터 라벨링의 사례 (링크)

날씨를 알려주는 앱 웨더 채널(Weather Channel)은 아이폰 사용자들에게 인기가 많다. 디바이스의 위치와 기압 센서 데이터를 제공하면 더 정확한 지역별 날씨 예측을 알 수 있기 때문에 4,500만 명의 사용자들은 정보 제공에 동의했다. 앱 이용약관에는 “위치와 관련된 광고를 제공하고, 서비스를 개선하기 위해 위치정보를 공유할 수 있다”고 씌여 있었다. 위치기반 광고 산업은 미국에서만 210억 달러가 넘는데 위치정보로 수익을 창출하려는 시도들은 모바일 앱을 개발하는 업계에서는 흔한 일이다.

아이폰용 웨더채널앱 (링크)

그런데 앱 화면에는 24시간 사용자 위치를 추적한다는 사실은 공개되어 있지 않았다. LA시는 웨더 채널 앱의 운영자 TWC과 IBM이 사용자들이 방문한 위치 정보를 타겟 마케팅에 사용했다는 이유로 소송을 제기했다. 위치 정보는 소비자 행태에 관심을 가진 헤지펀드 업체에게도 팔렸다. 앱으로 수집한 위치 정보를 제3자에게 판매한 것이 캘리포니아주 부정경쟁방지법 위반이라는 뉴스 보도가 이어지자 TWC와 IBM은 위치 정보의 추적을 앱 화면에 분명히 알리는 기능을 넣겠다고 약속하고 소송을 종결지었다.

라벨링이 잘못된 데이터나 비식별화가 미흡한 데이터만 AI 윤리 논쟁을 일으키는 것은 아니다. 자동화가 확산됨에 따라 신용평가부터 의료 서비스, 채용과정에 이르기까지 알고리즘이 점차 더 많은 자동화된 결정을 내리고 있다. 알고리즘은 사람이 프로그래밍하지만 의도하지 않게 인간의 편견을 다시 재현하여 여성과 유색 인종에게 불리한 결과를 초래하기도 한다. 유나이티드헬스그룹(UnitedHealth Group)의 옵툼(Optum)이 50여 개 병원들에게 공급한 프로그램의 알고리즘에서는 편향(bias)이 발견되었다. 병원들은 어떤 환자에게 가장 많은 치료가 필요한가를 예측하여 비용을 줄이려고 고위험군 의료 관리 프로그램을 사용했다. 병원에서 사용하는 알고리즘이 흑인 환자들을 백인 환자들에 비해서 차별했다는 사실이 과학저널 사이언스에 발표되자 인종차별 논란이 불거졌다.

옵툼의 알고리즘은 의료진들이 흑인 환자보다 백인 환자에게 추가적 헬스케어와 관심을 기울이도록 표시했는데 그 판단 기준은 지출된 의료 비용이었다. 개발자는 환자들의 인종을 전혀 고려하지 않고 알고리즘을 설계했기 때문에 흑인 환자들이 의료 비용 지출이 적다는 특성도 반영하지 못했다. 개발자가 알고리즘을 바로잡자 추가적 헬스케어가 필요한 흑인 환자들의 비중은 18퍼센트에서 47퍼센트로 급증했다.

골드만삭스는 자사가 운영하는 ‘애플 신용카드(Apple Card)’의 데이터를 바탕으로 여성보다 남성에게 더 큰 신용 한도를 부여했다. 유명한 덴마크인 개발자는 아내가 자신보다 신용점수가 더 높았지만 애플 카드의 신용한도 인상을 거부당하는 점을 의아하게 생각했다. 그가 올린 불만에 찬 트윗은 우연히 뉴욕주 금융감독청의 눈에 띄였다. 골드만삭스는 의도적으로 여성을 차별하는 알고리즘을 사용했는지 여부에 대해 뉴욕주 금융감독청의 조사를 받아야 했다. 그러나 이 사건의 보고서는 애플 카드가 소비자를 성별에 따라 차별하지 않았으며 평등한 대출기회 보장법(ECOA)을 위반하지도 않았다고 결론을 내렸다.

빅데이터 분석을 강조했던 캠브리지 애널래티카 컨설팅 (링크)

페이스북은 캠브리지 애널리티카로 인해 엄청난 위기를 겪었다. 그 본질은 데이터 스캔들이었다. 글로벌사이언스 리서치(GSR)는 페이스북 사용자들에게 심리검사 퀴즈용 앱을 제공했다. 캠브리지 애널리티카는 학문 연구에 사용하다는 핑계로 사용자들의 프로필 데이터를 넘겨받아 트럼프의 선거 캠프로 넘겼다. 내부자가 이 사실을 폭로하자 페이스북의 데이터 정책에 비난이 쏟아졌고 페이스북의 시가총액은 700억 달러나 폭락했다. 연방거래위원회(FCC)는 소비자 프라이버시 보호에 미흡했다는 이유로 페이스북에게 50억 달러의 벌금을 부과했다. 케임브리지 애널리티카는 빅데이터의 힘을 알고 있었지만 데이터 스캔들 이후 파산하고 말았다. 이와 대조적으로 아마존닷컴은 케임브리지 애널리티카가 사용자 데이터를 대규모로 모은다는 사실을 알자마자 아마존웹서비스(AWS) 사용을 중단시키는 결단을 내렸다.

이제 정확한 데이터 라벨링, 데이터의 윤리적 사용, 프라이버시의 적절한 보호, 알고리즘 편향을 제거하기 위한 노력은 AI 비즈니스의 성패를 좌우하는 중요한 요소가 되었다. AI가 미치는 영향력을 감안하면 데이터 윤리를 중시하고 알고리즘의 편향을 바로 잡는 일은 기업의 새로운 사회적 책임CSR으로 여겨지고 있다.

* 옥스퍼드대학 사회적 법학 연구센터(Socio-Legal Studies) 방문학자, 예일대 로스쿨의 정보사회 프로젝트(Information Society Project) 펠로우, 과학기술 정책연구원(STEPI) 펠로우로서 연구했다. 저서로는 레이어 모델, 가짜뉴스의 고고학공저로 인공지능 권력변환과 세계정치, 인공지능 윤리와 거버넌스등이 있다.


미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.