The UK exam debacle reminds us that algorithms can’t fix broken systems

영국 졸업시험 사건이 보여주는 알고리즘의 한계

대입시험 감독당국이 궁극적인 목표는 잊고, 표준화(standardization)에만 집착하면서 문제가 시작되었다.

영국 시험감독 당국이 졸업시험 대체방안 마련에 착수할 때 내세웠던 근거는 논리적으로 완벽한 것 같았다. 코로나 사태로 대면시험 실시가 어려워졌지만, 대입을 진행하기 위해서는 어떤 식으로든 학업 성적을 평가해야 한다는 것이었다.

이와 관련하여 감독당국이 가장 신경을 쓴 것은 공정성 확보 문제였다. 연구에 따르면 그동안 교사들이 평가한 학생들의 학업성취도 예상점수가 나이, 성별, 인종에 따라 편향성을 보인다는 지적이 있었기 때문이다. 몇 차례의 전문가 회의와 협의를 거쳐 대입시험감독청(Office of Qualifications and Examinations Regulation, 이하 Ofqual)은 알고리즘 기반 성적 산출 시스템을 도입했다. 바로 이 지점에서 일이 완전히 잘못된 방향으로 흘러가기 시작했다.

알고리즘 기반 시스템으로 성적을 산출한 결과 학생의 거의 40%가 교사 예상점수 보다 낮은 점수를 받아 자신이 지원한 대학에 들어가지 못할 위기에 놓인 것이다. 분석 결과 알고리즘이 노동자 및 소외계층 학생에게는 지나치게 낮은 점수를 주고, 사립학교 학생에게는 지나치게 높은 점수를 주었다는 것이 밝혀졌다. 결국 8월 16일 런던에 위치한 교육부 청사 앞에 모인 수백 명의 시위대가 이에 항의하는 사태가 벌어졌다. 이들은 “알고리즘은 물러가라(Fuck the algorithm)”는 구호를 외쳤다. 다음날 Ofqual은 결정을 번복했으며, 학생들은 교사 예상점수와 알고리즘 산출점수 중 더 높은 점수를 받을 수 있게 되었다.

이번 사태는 알고리즘에 의한 차별을 여실히 보여주는 교과서적 사례이다. 사태 이후 해당 알고리즘을 면밀히 조사한 전문가들은 예견된 결과였다고 입을 모은다. 일부 알고리즘 훈련 과정에 학생 개인의 학업성취도 외에 소속 학교 전체의 과거 입시 실적이 반영되었기 때문이다. 이런 식으로 훈련된 알고리즘은 학생 개인의 성적이 아무리 우수해도 그 학생이 다니는 학교의 전체 입시 실적이 저조하면 그 학생에게는 점수를 인색하게 주고, 평균 입시 실적이 우수한 학교에 다니는 학생에게는 좋은 점수를 준다.

그렇지만 이번 사태의 뿌리는 단순히 나쁜 데이터 또는 잘못된 알고리즘 설계에 있지 않다. Ofqual이 알고리즘 기반 시스템을 활용하겠다고 결정하기 이전에 이미 더욱 근본적인 문제가 발생했기 때문이다. 이번 사태의 근본 원인은 감독당국이 그렇지 않아도 불안이 팽배해진 이 같은 시기에 학생이 대학에 진학하도록 지원한다는 궁극적인 목표를 망각한 데 있다.

미국 휴먼라이츠워치(Human Rights Watch)에서 아동권리와 기술을 주로 연구하는 한혜정 연구원은 “잘못된 상상력이 빚어낸 대참극이다”라고 이번 사태를 꼬집었다. “수많은 프로세스의 기본 전제에 대해 철저히 검토해야 한다는, 시험감독 당국으로서 마땅히 해야 할 일을 하지 않았다”고 지적한다.

시험 취소가 결정된 뒤, Ofqual에 주어진 당면 목표는 기본적으로 두 가지였다. 첫 번째는 점수 인플레를 억제하고 점수를 표준화하는 것, 두 번째는 대입에 활용 가능한 수준으로 학업성취도를 최대한 정확히 평가하는 것이었다. 그러나 교육부 장관의 지시를 받은 감독당국은 첫 번째 목표에 집착하기 시작했다. <안녕, 인간: 기계의 시대에 인간성을 유지하는 법(Hello World: How to Be Human in the Age of the Machine)>을 집필한 유니버시티칼리지런던(University College London)의 해나 프라이(Hannah Fry) 조교수는 “그것이 문제의 시발점이었다”고 말한다. “그들은 잘못된 목표에 맞춰 나머지를 조정했다. 그 순간부터 알고리즘이 어떤 것이냐는 기본적으로 전혀 중요하지 않게 되었다. 그 어떤 것도 제대로 된 결과를 절대 가져올 수 없었기 때문이다.”

    “잘못된 상상력이 빚어낸 대참극이다”

– 한혜정

첫 번째 목표는 Ofqual이 이 문제를 다루는 기본 원칙이 되었다. 그리고 표준화의 필요성은 그 밖의 다른 모든 것을 지배했다. 이런 상황에서 감독당국이 2020년도 점수 분포가 2019년도와 유사하도록 최고의 표준화 도구인 통계 모델을 활용하기로 한 것은 지극히 논리적인 결정이었다.

만약 Ofqual이 두 번째 목표에 집중했다면 지금과는 상황이 많이 달랐을 것이다. 알고리즘을 포기하고, 대학교와 함께 점수 가중치 부여 방식에 변화를 주었을 지도 모른다. “눈 앞의 과제가 아니라 그 다음을 내다보면서, 학생들이 대학에 입학하여 취업을 준비하게 한다는 취지를 돌아봤다면 좋았을 것이다. 그랬다면 대학교, 기업과 손잡고 유연하게 대처할 수 있었을 것이다. ‘올해는 점수가 다른 형태가 될 것이다. 따라서 그동안 점수를 토대로 이루어졌던 중요한 결정들도 이번에는 융통성을 발휘하여 다른 식으로 이루어져야 한다’고 말할 수 있었을 것이다”라고 한 연구원은 말한다.

Ofequal은 알고리즘에 기반한 솔루션은 공정하다는 생각에 사로잡혀, 시스템의 전반적인 문제가 일으키는 명백한 불공정을 보지 못하는 실수를 저질렀다. “코로나 사태가 없다는 전제 하에 문제를 규정하고 성적을 예측한다는 것 자체가 이미 내재적으로 불공정한 것이다”라고 한 연구원은 지적한다. “코로나로 인해 디지털 교육 격차의 실체가 드러난 것을 우리가 이미 알고 있는데, 이 사실을 무시하는 것이기 때문이다.”

이번 문제는 Ofequal에만 국한되지 않는다. 옥스퍼드인터넷연구소(Oxford Internet Institute)가 지난 주 발표한 연구에 따르면 알고리즘과 관련하여 조직이 흔히 하는 실수 중 하나는 알고리즘으로 매우 복잡한 구조적 문제를 해결할 수 있다고 착각하는 것이다. 이 연구에 공동 저자로 참여한 옥스퍼드인터넷연구소의 지나 네프(Gina Neff) 부교수는 이번 같은 일이 “허황된 생각에 동조한 것”이라며, “알고리즘이 교사의 편견을 완전히 제거하고 부정 행위나 시스템 조작 시도를 원천봉쇄할 수 있다는 그런 생각이 상당히 퍼져 있다”고 지적한다.

    “이번 일은 알고리즘의 부당함을 온 국민이 동시에 목도한 첫 번째 사례가 될 것이다.”

–  해나 프라이

하지만 진실은 무너진 시스템을 알고리즘으로 고칠 수는 없다는 것이다. 알고리즘은 주변 시스템이 가진 오류를 고스란히 물려받는다. 이번 영국 사태에서는 그로 인한 폐해가 학생들과 그들의 미래에 큰 타격을 주었다. “이번 일은 알고리즘의 부당함(injustice)을 온 국민이 동시에 목도한 첫 번째 사례가 될 것이다”라고 프라이 교수는 말한다.

프라이 교수, 네프 교수, 한 연구원은 하나같이 이번 일이 끝은 아닐 것이라며 우려를 나타냈다. 이번 사태로 일반 시민이 알고리즘의 폐해를 인식하게 된 것은 사실이다. 그렇지만 공정하고 유용한 알고리즘을 설계하고 이를 시행한다는 것은 솔직히 대단히 어려운 일이다.

그럼에도 불구하고 이들은 감독당국이 이번에 얻은 교훈을 최대한 잘 활용해야 할 것이라고 입을 모은다. 무엇보다 원래의 목표로 돌아가 그것이 정말 옳은 목표인지 검토해야 한다. 다음으로 목표를 달성하기 위해 바로잡아야 할 구조적 문제가 무엇인지 파악해야 한다. (네프 교수는 “3월에 정부가 시험 취소 결정을 내렸을 때 평가의 공정성을 위해 평가자 풀을 확대하는 새로운 전략을 짰어야 한다”고 말한다)

끝으로 누구나 쉽게 이해할 수 있고, 쉽게 시행할 수 있으며, 특히 현재의 큰 불확실성을 고려하여 쉽게 수정할 수 있는 해법을 택해야 한다. 이번에는 알고리즘을 포기하고 교사 예상점수를 택하는 것이 그 해법이라고 프라이 교수는 말한다. “그것이 완벽하다는 말은 아니다. 다만 그것이 지금 상황에서는 최소한 단순하고 투명한 시스템이다.”

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.