Auditors are testing hiring algorithms for bias, but there’s no easy fix

AI 알고리즘 분석해 편향 극복할 수 있나?

AI 채용 알고리즘에 대한 감사(audit)를 실시해도 편향을 발견하지 못할 수 있다. 또 가장 우수한 인재를 가려 주는 것도 아니다.

나는 지금 집에서 컴퓨터로 비디오 게임을 하는 중이다. 풍선을 하나씩 불 때 마다 5센트가 적립된다. ‘불기’ 버튼을 눌러 풍선을 불고, 풍선이 터지기 전에 ‘모으기’ 버튼을 눌러야 한다. 어쩌다 ‘모으기’ 버튼을 늦게 누르면 그동안 모은 돈을 모두 잃을 수도 있다.

지금까지 풍선 39개를 불고 14.40달러를 모았다. 그런데 갑자기 화면에 메시지가 나타난다. “당신은 고위험 상황에서도 같은 접근법을 고집합니다. 당신은 ‘위험감수형’입니다”.

이 게임은 파이매트릭스(Pymetrics)가 개발한 채용 도구 중 하나이다. 현재 미국의 많은 기업이 이 도구를 채용 절차에 도입했다. 맥도날드, 보스턴컨설팅그룹, 크래프트하인즈, 콜게이트-팜올리브 등이 대표적이다.

당신이 게임을 하는 동안 AI는 관대함, 공정함, 주의력 등 성격 유형을 측정한다. 이 게임을 도입한 기업에 지원한다면, AI는 나의 결과를 내가 지원한 직군에서 일하는 직원들이 얻은 결과와 비교한다. 나의 성격 특성이 고성과자와 비슷하다고 판명되면 다음 단계로 넘어갈 수 있다.

코로나19 사태 이후 미국에서 실직자가 거의 두 배로 증가하면서 물밀듯 밀려드는 지원서를 처리하기 위해 이 같은 AI 기반 채용 도구를 도입하는 기업이 점점 늘고 있다. 자산운용사 머서가 세계 각국 인사관리자 7,300명을 대상으로 실시한 조사에 따르면 예측적 분석 도구 활용 비율이 2016년 10%에서 2020년 39%로 급증했다.

그런데 다른 AI 기반 도구와 마찬가지로 AI 기반 채용 도구도 편향된 결과를 도출한다는 연구 결과가 있다. 연구에 따르면 AI 기반 채용 도구는 남성 또는 특정한 사회경제적 배경을 지닌 지원자를 선호한다. 이에 투명성 및 규제의 강화를 요구하는 소리가 커지고 있다. 그 중에서도 특히 AI 감사(AI audit) 도입 주장이 힘을 얻고 있다.

지난해 파이메트릭스는 노스이스턴대학교(Northeastern University) 컴퓨터공학과에 자사 채용 도구에 대한 감사를 의뢰했다. 자사 AI 기반 제품에 대한 감사를 외부에 의뢰한 것은 파이매트릭스가 거의 최초였다. 프리다 폴리(Frida Polli) CEO는 기업에 외부 감사를 의무화하는 내용의 법안이 뉴욕주에서 발의된 상황에서 이번 결정이 파이매트릭스처럼 뉴욕에 본사가 있는 다른 기업에 모범이 될 것이라고 소감을 밝혔다.

파이매트릭스는 이 제품을 ‘편향성을 완전히 극복한’ 제품이라고 홍보한다.

“이번에 파이매트릭스가 실시한 제3자에 의한 중립적 감사는 훌륭한 모델이 될 것”이라고 세인트루이스 워싱턴대학교(Washington University in St. Louis) 법학과 교수이자 고용법 및 인공지능 전문가 펄린 킴(Pauline Kim)은 말한다. 킴은 “이는 AI 업계의 투명성 강화와 같은 긍정적 변화로 이어질 것”이라고 말한다.

그렇지만 AI 감사에 쏟아진 관심에도 불구하고 감사를 통해 알고리즘의 편향을 탐지하고 예방하는 것이 가능한지 여부는 여전히 입증되지 않았다. ‘AI 감사’라는 용어 자체도 아직 정의가 불분명하다. 따라서 감사 결과를 신뢰하기도 어렵다. 가장 엄격한 수준의 감사는 여전히 제한적인 범위에서만 가능하다. 설령 알고리즘에 무제한으로 접근할 수 있다 하더라도 감사를 통해 해당 알고리즘이 지원자를 차별하지 않는다고 단정적으로 결론 내리는 것은 상상 이상으로 어려운 일일 수도 있다. AI 감사 결과는 잘해야 미완성된 그림에 불과하고, 잘못하면 단지 감사를 받았다는 이유만으로 기업의 부적절한 관행을 덮는 면죄부가 될 수도 있다.

AI 감사는 어떻게 이루어지나

현재 다양한 AI 채용 도구가 이미 현장에서 사용되고 있다. AI 채용 도구는 화상 인터뷰 자료에서 구직자의 표정과 말투, 언어 사용 습관을 분석하고, 사람을 대신하여 이력서 검토, 인적성 예측, 소셜미디어 활동 조회 등의 작업을 한다.

이 중 어떤 용도의 제품을 판매하든 AI 채용 도구를 판매하는 기업이 내세우는 것은 하나다. 기존 방식보다 낮은 비용으로 업무 적합성과 다양성이 더 높은 지원자를 가려낼 수 있다는 것이다. 그렇지만 이를 증명하는 증거는 별로 없다. 무엇보다 파이매트릭스 제품에 대한 이번 감사는 그 같은 측면은 아예 고려하지 않았다. 애초의 목표가 인종이나 성별을 기준으로 지원자를 심각하게 차별하지는 않는지 판단하는 것이었기 때문이다.

노스이스턴대학교 크리스토 윌슨(Christo Wilson)은 우버(Uber)의 할증요금 책정 알고리즘과 구글의 검색엔진 알고리즘에 대한 감사를 수행한 경험이 있다. 그렇지만 이번처럼 조사 대상 제품의 판매 기업이 감사 비용을 부담한 적은 없었다.

윌슨은 동료 앨런 미스러브(Alan Mislove)와 대학원생 두 명을 데리고 파이매트릭스로부터 전달받은 데이터를 조사하기 시작했다. 파이매트릭스의 데이터 과학자들도 만났다. 이들은 편집 독립성은 보장받았지만 감사 결과 부정적인 내용이 나올 경우, 발표에 앞서 이를 회사에 알린다는 데에는 동의했다. 파이매트릭스는 연구비로 10만 4,465달러를 지출했으며, 그 중 6만 4,813달러는 인건비였다.

파이매트릭스의 주력 제품은 인지과학 기반 게임 12종으로 구성된 패키지 제품이다. 이들 게임의 목표는 승패를 가리는 것이 아니라 위험감수 성향, 학습역량 등 사용자의 인지적, 사회적, 정서적 특성을 평가하는 것이다. 파이매트릭스는 이 제품이 ‘편향성을 완전히 극복했다’고 홍보한다. 파이매트릭스와 윌슨은 파이매트릭스의 모델이 정말로 공정한지 검증하는 데 감사의 초점을 맞추기로 했다.

‘공정함’을 판별하는 기준으로는 ‘4분의 3 규칙(the four-fifths rule)’을 채택했다. 현재 미국에서 공정함의 기준으로 널리 받아들여지는 이 규칙은 고용기회균등위원회(Equal Employment Opportunity Commission, EEOC)가 1978년 발표한 지침에서 비롯됐다. EEOC는 특정 전형 단계를 통과하는 지원자 중 남성과 여성의 비율이 거의 동일하고 인종 집단 간 비율도 거의 동일해야 한다고 규정했다. 킴은 이 규칙에 대해 “남성 지원자가 특정 채용 단계를 100% 통과하면 여성 지원자도 적어도 80%는 통과해야 한다는 뜻”이라고 설명한다.

EEOC는 4분의 3 규칙을 충족하지 못한 기업에 대해서는 강도 높은 조사를 실시한다. 그렇지만 “기업 입장에서 나쁘기만 한 것은 아니다”라고 킴은 설명한다. 지원자가 채용 도구에 의해 심각한 차별을 당하는 일이 없도록 보장함으로써 연방기관의 감시의 눈길을 피할 수 있기 때문이다.

파이매트릭스 제품이 이 기준을 충족하는지 알아보기 위해 윌슨의 팀은 우선 해당 제품의 작동 원리부터 파악해야 했다.

파이매트릭스 제품을 구매한 기업은 인력 충원을 원하는 직군에서 기존 직원 중 고성과자 50명을 뽑는다. 뽑힌 직원은 게임을 하고, 그 결과는 AI 훈련 데이터로 사용된다. 그 다음 파이매트릭스 시스템이 고객사 직원 50명의 게임 결과를 2백만 명이 넘는 모집단에서 무작위로 추출한 1만 명의 결과와 비교한다. 다음으로 고성과자를 규정할 수 있는 구체적 스킬을 밝히고 스킬의 순위를 매기는 모델을 구축한다.

이렇게 구축된 모델의 편향성을 검증하기 위해 50만 명의 모집단에서 무작위로 추출한 1만 2,000명의 게임 결과를 모델에 투입한다. 이들은 설문조사를 통해 인적 정보도 공개된다. 이 같은 정보 공개는 1만 2,000명을 평가한 결과가 4분의 3 규칙을 충족하는지 여부를 확인하기 위해서다.

검증 결과 편향성이 확인되면 고성과자를 예측하고 4분의 3 규칙도 충족할 때까지 모델 구축과 검증을 반복한다. 따라서 이론적으로는 어떤 기업에서 가장 우수한 직원이 모두 백인 남성이라 해도 파이매트릭스는 이들의 게임 결과를 여성 및 다른 인종 집단의 게임 결과와 비교함으로써 편향을 제거할 수 있는 것이다. 파이매트릭스의 목표는 인종이나 성별과는 무관하지만 높은 업무 수행 역량과는 관계가 있는 특징을 포착하는 데이터 포인트를 찾는 것이다.

크리스토 윌슨, 노스이스턴대학교
SIMON SIMARD 제공

윌슨의 팀은 파이매트릭스 모델이 실제로 편향을 방지할 수 있는지 그리고 조작될 가능성은 없는지 확인하기로 했다. 방법은 기본적으로 시스템을 속이는 것이었다. 예를 들어, 동일한 백인 남성이 게임을 한 결과를 복제하여 여러 번 입력하고 그 결과를 토대로 모델을 구축하는 것이다. 그렇지만 결과는 늘 같았다. 윌슨은 “코드 작성, 데이터 과학자들의 접근법, 그 어디에도 편향을 주입할 확실한 방법이 없었다”고 말한다.

윌슨의 팀은 지난 가을 파이매트릭스 제품이 4분의 3 규칙을 충족한다는 결과 보고서를 회사에 보냈다. 최근에는 온라인으로 연구 결과를 발표했으며, 3월 열리는 알고리즘 책임성(algorithmic accountability) 국제회의 FAccT에도 보고서를 보낼 예정이다.

“가장 큰 성과는 파이매트릭스가 실제로 좋은 결과를 낸다는 점”이라고 윌슨은 말한다.

불완전 해법

파이매트릭스 소프트웨어가 4분의 3 규칙을 충족한다는 결과가 나오기는 했지만, 해당 제품이 그 밖의 모든 편향을 극복했는지 그리고 어떤 직무에 맞는 가장 우수한 지원자를 선발하는 능력이 있는지 증명된 것은 아니다.

코넬대학교(Cornell University)에서 컴퓨터공학 박사 과정을 밟고 있는 매니시 라퍼번(Manish Raghavan)은 “사실 이번 감사는 ‘파이매트릭스가 옳은 일을 하는지’가 아니라 ‘내세우는 바를 정말로 실천하는지’ 검증한 것”이라고 지적한다. 라퍼번은 인공지능과 채용에 대해 여러 편의 논문을 발표했다.

“사실 이번 감사는 ‘파이매트릭스가 옳은 일을 하는지’가 아니라 ‘내세우는 바를 정말로 실천하는지’ 검증한 것이다”

실제로 4분의 3 규칙 같은 경우 특정 단계를 통과한 지원자는 남성과 여성의 비율이 거의 동일하고 인종 집단 간 비율도 거의 동일해야 한다고만 규정한다. 문제는 특정한 채용 도구가 이 같은 요건은 만족하지만 채용 후 업무 수행 역량 예측 측면에서는 일관성이 크게 떨어질 수 있다는 점이다. 또, 어떤 도구가 업무 수행역량 예측 능력이 여성보다 남성에 대해 정확도가 높을 경우, 해당 도구는 가장 우수한 여성 지원자를 골라내지 못하고 따라서 채용된 여성 직원이 “해당 직무에서 [남성만큼] 우수한 성과를 내지 못할 것”이라고 킴은 지적한다.

또, 4분의 3 규칙이나 이번 감사 모두 변수의 교차성(intersectionality)을 고려하지 않았다는 점도 문제다. 4분의 3 규칙은 남성과 여성, 한 인종 집단과 다른 인종 집단의 비율을 고려할 뿐 백인 남성과 아시아계 남성 또는 흑인 여성의 비율은 고려하지 않는다. 킴은 “예를 들어 남녀의 비율, 흑인과 백인의 비율 면에서는 4분의 3 규칙을 충족하지만 흑인 여성은 차별하는 모델이 있을 수 있다”고 지적한다.

파이매트릭스가 AI 알고리즘 감사를 실시한 유일한 회사는 아니다. AI 채용 도구 판매사 하이어뷰(HireVu)는 ORCAA(O’Neil Risk Consulting and Algorithmic Auditing)에 자사 알고리즘에 대한 감사를 의뢰했다. ORCAA의 소유주 케이시 오닐(Cathy O’Neil)은 데이터 과학자이자 AI의 편향성을 다룬 베스트셀러 ≪대량 살상 수학 무기(Weapons of Math Destruction)≫의 저자로, 몇 년 전부터 AI 감사의 필요성을 주장해 왔다.

ORCAA와 하이어뷰는 많은 기업에서 대졸 신입사원 모집에 쓰이는 하이어뷰 평가 도구를 중심으로 감사를 진행하기로 했다. ORCAA는 평가 도구 자체의 기술적 설계는 살펴보지 않았다. 대신 이해관계자(지원자, AI 윤리학자, 일부 비영리단체)와의 인터뷰를 통해 평가 도구의 잠재적 문제점을 파악하고 개선을 위한 권고 사항을 회사에 전달했다. 최종 보고서는 하이어뷰 공식 홈페이지에 게재되었으며, 비밀유지 동의서 서명 후 볼 수 있다.

브루킹스연구소(Brookings Institution)의 알렉스 엥글러(Alex Engler)는 AI 채용 도구에 대한 연구를 진행하고 있으며, 앞서 소개된 감사 두 건에 대해 잘 알고 있다. 그는 “분석의 깊이가 다르다”며 파이매트릭스의 감사가 낫다는 입장을 보였다. 그렇지만 두 감사 모두 AI 채용 도구가 기업의 채용 결정에 실질적 도움을 주는지는 확인하지 않았다. 또 감사 대상 제품을 판매하는 기업이 감사 비용을 부담한 경우에 해당한다. 이에 대해 킴은 “조사하는 제품이 고객사가 만든 것이라는 점이 감사에 영향을 미칠 가능성이 없지는 않다”고 지적한다.

이 같은 이유로 일부에서는 자발적 감사로는 부족하다고 주장한다. 실제로 데이터 과학자 및 알고리즘 책임성 전문가들은 AI 채용 도구에 대한 포괄적 규제 및 AI 감사 기준 마련을 추진하고 있다.

해결책은?

이와 관련하여 미국에서 몇 가지 움직임이 진행되고 있다. 비록 통과되지는 않았지만, 2019년 코리 부커(Cory Booker) 및 론 와이든(Ron Wyden) 상원의원과 이베트 클라크(Yvette Clarke) 하원의원은 AI를 활용하는 대기업에 편향성 감사를 의무화하는 알고리즘책임법(Algorithmic Accountability Act)을 공동 발의했다.

주 및 시 차원의 움직임도 활발하다. 2020년 1월 발효된 일리노이주 AI 화상인터뷰법(AI Video Interview Act)은 화상 면접에 AI가 사용될 경우 이를 피면접자에게 알리도록 했다. 지난 11월 LA에서는 조 버스케이노(Joe Buscaino) 시의원이 자동화 시스템에 대한 공정 채용안을 제출하기도 했다.

특히 앞서 언급한 뉴욕시 법안은 다른 지역에도 모범이 될 수 있다. 이 법안이 통과되면 채용 자동화 도구를 판매하는 회사는 매년 의무적으로 AI 감사를 받아야 한다. 또, 그 같은 도구를 사용하는 기업은 어떤 특성을 측정하는지 지원자에게 알려야 한다.

그렇지만 그 같은 연례 감사가 실제로 어떤 형식으로 진행될지는 여전히 미지수다. 많은 전문가들이 이번 파이매트릭스와 같은 감사는 AI 채용 도구의 차별 여부를 판단하는 데 별 효과가 없을 것이라고 말한다. 감사에 교차성이 반영되지 않았고, 회사가 주장하는 대로 성별과 인종이 다양한 지원자들에 대해서도 정확히 특성을 평가할 수 있는지도 고려되지 않았기 때문이다.

이해충돌을 피하기 위해서는 민간이 아니라 정부가 나서야 한다는 목소리가 높다. 브루클린법학전문대학원(Brooklyn Law School) 교수이자 알고리즘 책임성 전문가 프랭크 파스퀘일(Frank Pasquale)은 “이런 시스템이 도입되기 전에 선제적으로 규제를 마련해야 한다. 고용기회균등위원회(EEOC)가 나서서 검토하고 승인해야 한다”고 강조한다. 그는 미국 식품의약국(FDA)의 의약품 규제 방식과 유사한 사전승인 제도를 도입할 것을 주장한다.

그렇지만 EEOC는 이미 현장에 도입된 알고리즘에 대해서조차 명확한 지침을 내놓지 않고 있다. 그렇지만 상황이 곧 달라질 가능성도 있다. 코로나19 사태로 실직한 비율이 특히 높은 유색 인종이 구직 과정에서 차별을 당하지 않도록 상원의원 10명이 뜻을 모아 지난 12월 EEOC에 AI 채용 도구에 대한 규제 권한이 있는지 알려 달라는 내용의 서한을 발송했다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.