Bias isn’t the only problem with credit scores—and no, AI can’t help

AI의 신용평가 편향, AI가 해결할 수 있나?

실제 담보대출 데이터를 분석한 최대 규모 연구에서 소수인종에 대한 대출 심사에 사용된 예측 도구의 정확도가 낮은 것으로 확인되었다.

우리는 편향된 데이터와 알고리즘에 의해 왜곡된 자동화 의사결정 시스템이 저소득층과 소수인종을 차별한다는 사실을 잘 알고 있다. 예를 들어, 은행이 대출 신청자의 상환 가능성을 평가할 때 사용하는 소프트웨어는 소득 수준이 높은 백인 신청자를 주로 선호한다. 이 문제를 해결하기 위해 많은 연구자와 기업이 알고리즘의 공정성 강화에 매달리고 있다. 

그런데 실제 담보대출 데이터에 기반한 연구에서 소수인종과 다수인종의 담보대출 승인율 차이가 단순히 편향성에 기인한 것이 아니라는 점이 확인되었다. 비슷한 연구 중 최대 규모인 이번 연구는 스탠퍼드 대학교의 경제학자 로라 블래트너(Laura Blattner)와 시카고 대학교의 경제학자 스캇 넬슨(Scott Nelson)에 의해 진행되었다. 이들은 대출 승인율이 차이나는 것은 저소득층 및 소수인종의 신용이력 데이터가 부족하기 때문이라고 밝혔다.

이는 이런 데이터를 사용하여 신용점수를 계산하고 이렇게 계산된 신용점수를 채무불이행 가능성 예측에 사용한다면 예측의 정확도가 낮아진다는 것을 의미한다. 편향성 뿐만 아니라 정밀성(precision)의 부족도 불평등으로 이어지고 있는 것이다.

이는 냉정히 말해 더 공정한 알고리즘으로도 문제를 해결할 수 없을 것이라는 의미이다.

하버드 대학교에서 기계학습과 경제학을 연구하는 애쉬시 람바찬(Ashesh Rambachan)은 이번 발표에 대해 “놀라운 결과”라고 말한다(람바찬은 이번 연구에 참여하지 않았다). 얼마 전부터 편향성과 단편적인 신용기록이 중요한 이슈로 부각되기는 했지만, 실제 대출 신청 수백만 건을 분석한 대규모 연구가 진행된 것은 이번이 처음이다.

신용점수는 취업 기록, 재정 상황, 소비 습관 등 개인의 광범위한 사회경제적 데이터를 하나의 숫자에 통합적으로 반영한 것이다. 현재 신용점수는 대출심사 뿐만 아니라 보험가입, 채용결정, 주택구매 등 우리의 삶에 중대한 영향을 미치는 여러가지 결정에 사용되고 있다.

블래트너와 넬슨은 대출을 제공하는 채권자가 다수인종과 소수인종을 차별하는 원인을 알아보기 위해 우선 익명 처리된 미국 소비자 5,000만 명에 대한 신용평가 기록을 수집했다. 그런 다음, 수집한 기록을 마케팅 데이터세트, 부동산 권리증 및 대출거래, 대출을 제공한 금융기관의 데이터 등에서 추출한 구체적인 사회경제적 정보와 한 명씩 매칭했다.

이 같은 종류의 연구가 이제서야 처음 실시된 이유는 이런 데이터세트가 대부분 보유기관의 재산으로 되어 있어서, 연구자들이 무료로 입수할 수 없기 때문이다. “우리는 신용평가사에 찾아갔고, 기본적으로 이를 위해 많은 돈을 내야 했다”고 블래트너는 말한다.

잡음이 섞인 데이터

다음으로, 그들은 신용점수가 단순히 편향된 것이 아니라 신용점수에 ‘잡음’이 있다는 것을 증명하기 위해 다양한 예측 알고리즘들을 실험했다. ‘잡음(noise)’은 정확한 예측에 사용될 수 없는 데이터를 가리키는 통계 용어이다. 어떤 소수인종 대출 신청자가 신용평가에서 620점을 받았다고 가정해보자. 편향된 시스템은 이 신청자의 위험도를 늘 과대평가하므로 정확한 점수는 625점일 것이라고 생각해볼 수 있다. 이론적으로는 이런 편향을 소수인종 신청자에 대한 승인 기준을 낮추는 등의 일정한 소수인종 우대정책을 통해 제거할 수 있다.

그렇지만 블래트너와 넬슨은 이 같은 조치가 아무런 효과도 없다는 사실을 보여주었다. 620점이라는 점수가 이 신청자의 신뢰성(creditworthiness)을 잘못 반영한 점수인 것은 맞지만, 여기서 ‘잘못 반영했다’는 것은 오류가 양방향으로 모두 일어날 수 있기 때문이다. 즉, 이 신청자가 받았어야 할 점수가 625점일 수도 있고 615점일 수도 있다는 것이다.

얼핏 보면 별것 아닐 수도 있지만, 이것은 중요한 차이다. 부정확한 심사 결과가 데이터 사용 방식의 편향이 아닌 데이터에 존재하는 잡음에서 비롯되었고, 따라서 알고리즘 개선을 통한 문제해결이 불가능하다는 뜻이 되기 때문이다.

“이것은 계속 반복되는 악순환”이라고 블래트너는 설명한다. “한 편에서는 대출을 받을 수 없는 이들에게 대출을 제공하고 또다른 한 편에서는 아주 많은 이들이 앞으로 대출을 받기 위해 필요한 데이터를 축적할 기회조차 전혀 얻지 못한다.”

블래트너와 넬슨은 이 문제가 얼마나 심각한지도 측정했다. 이들은 우선 대출 제공기관이 사용하는 예측 모델을 모방한 시뮬레이션을 직접 구축했다. 그리고 신청자의 신용점수가 경계선에 해당하여 점수의 부정확성으로 인해 대출 신청이 승인되거나 거절된 경우, 만약 심사결과가 반대로 나온다면 이후 상황이 어떻게 달라지는지 살펴보기로 했다. 이를 위해, 담보대출 신청이 거절된 신청자를 비슷한 조건에서 신청이 승인된 다른 신청자와 비교하고, 자동차 대출 등 거절된 신청자가 받은 다른 신용거래들을 분석하는 등 다양한 기법을 동원했다.

이 모든 과정을 거쳐 그들이 보기에 ‘정확한’ 대출심사 결과를 시뮬레이션 모델에 투입하고 집단 간 대출 승인율 차이가 어떻게 달라지는지 측정했다. 측정 결과, 소수인종 및 저소득층 신청자의 대출심사 결과의 정확도가 소득 수준이 높은 백인 신청자에 대한 수준으로 높아질 경우, 대출 승인율 차이가 무려 50%나 줄어드는 것으로 밝혀졌다. 소수인종의 경우, 감소의 거의 절반은 승인 했어야 할 신청을 거절하게 만든 오류의 제거로 인한 것이었다. 저소득층은 감소폭이 이보다 적었다. 이는 반대 방향의 오류 제거 즉, 거절 했어야 할 신청을 승인하게 만든 오류의 제거로 인해 감소폭이 상쇄되었기 때문이다.

블래트너는 이 같은 부정확성의 문제를 해결하는 것이 자격이 있지만 대출을 거절당한 신청자 뿐만 아니라 대출 제공기관에도 이득이 될 수 있다고 설명한다.

오류 바로잡기

그렇지만 문제 해결이 쉽지는 않을 것으로 보인다. 현직 변호사로, 노스이스턴 대학교(Northeastern University)에서 기술과 인종 문제를 연구하는 라시다 리차드슨(Rashida Richardson)에 따르면 소수인종의 신용 데이터에 잡음이 존재하는 데에는 여러가지 이유가 있다. “은행 제도를 불신하는 몇몇 집단이 전통적인 신용대출을 거부함으로써 초래된 복잡한 사회적 결과물이다.” 문제를 해결하기 위해서는 반드시 근본 원인을 해결해야 한다. 세대에 걸쳐 누적된 손해를 회복하기 위해서는 대단히 많은 조치가 필요할 것이다. 그 중에서도 특히 은행업에 대한 새로운 규제의 도입과 소수인종 공동체에 대한 투자가 중요하다. “많은 잘못된 정책과 관행을 건드려야 하므로 해결이 간단하지는 않다.”

한 가지 간단한 단기 해법은 정부가 대출기관을 압박하여 알고리즘에 의해 대출 신청이 거절된 소수인종 신청자들에게 대출을 제공하고 그에 따르는 위험을 감수하게 하는 것이다. 그러면 대출기관은 이들에 관한 정확한 데이터를 수집하기 시작할 것이다. 이는 장기적으로 대출 신청자와 대출기관 모두에게 이득이 될 것이다.

블래트너는 일부 소형 대출기관이 이미 그렇게 하기 시작했다고 전한다. “기존 데이터에서 얻을 정보가 별로 없으면, 방향을 틀어 대출을 대량으로 실행하고 사람들에 대해 파악해야 한다.” 람바찬과 리차드슨은 이것이 반드시 필요한 첫 단계라고 생각한다. 상대적으로 대형 대출기관이라면 이를 위해 조직 문화를 바꿔야 할 것이라고 람바찬은 덧붙인다. 람바찬은 이 같은 방식이 데이터 과학자의 눈에는 매우 합리적이지만, 은행의 데이터 관련 담당자들에게는 그렇지 않다고 말한다. “그들은 영업팀에 설명할 방법이 없다며 한숨을 쉴 것”이라며 “여기에 대한 해법은 나도 모르겠다”고 덧붙인다.

블래트너는 대출 신청자의 신용점수를 은행 거래기록 등의 데이터로 보강해야 한다고도 주장한다. 이와 관련하여 블래트너는 JP모건체이스 등의 은행이 신용이력 데이터가 부족한 개인에 대한 정보를 추가로 확보하기 위해 해당 고객의 은행계좌 데이터를 공유할 것이라는 최근 발표를 환영한다. 그렇지만 이런 조치가 실제 어떤 변화로 이어질지에 대해서는 추가적인 연구가 필요하다. 또, 신용대출 확대가 약탈적인 관행을 동반하지 않도록 감독기관이 감시해야 할 것이라고 리차드슨은 지적한다.

많은 사람들이 편향된 알고리즘의 문제에 대해서는 잘 알게 되었다며, 이제부터는 잡음이 있는 알고리즘에 대한 논의가 이루어져야 할 것이라고 블래트너는 말한다. 연구자들이 알고리즘의 편향과 이를 기술을 통해 이를 고칠 수 있다는 믿음에 집착하면 더 큰 문제를 놓칠 수도 있다.

리차드슨은 정책결정자들이 기술적인 해법이 없음에도 불구하고 해법이 있다는 주장에 설득 당하지 않을까 우려한다. 리차드슨은 “불완전한 데이터가 문제가 되는 것은 연구자들이 미묘한 사회적 불평등까지 충분히 파악하고 있어야만 그것을 알아차릴 수 있기 때문”이라며 “모든 사람이 소속감을 느끼고 존엄한 대우를 받는다고 느끼는 평등한 사회를 만들기 위해서는 우리가 직면한 문제의 심각성을 현실적으로 직시하는 것부터 시작해야 한다”고 강조한다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.