What is an “algorithm”? It depends whom you ask

알고리즘은 도대체 무엇?

책임성 강화를 위해서는 시스템 디자인이 아니라 영향(impact)에 주목해야 한다.

‘알고리즘(algorithm)’을 일종의 의사결정 체계로 묘사하는 것은 인간의 책임(accountability)이 희석하기 위한 의도에서 비롯된 것일 때가 많다. 많은 이들이 알고리즘이라는 용어에서 실증적 증거나 데이터에 객관적인 기반을 둔 규칙의 집합체를 떠올린다. 인간의 지적 능력으로는 시스템 내부의 작동 원리를 이해하거나 현실에서의 행동을 예측하기가 지극히 힘든 복잡한 시스템을 떠올리기도 한다.

이 같은 생각이 과연 맞을까? 꼭 그렇지는 않다.

작년 12월 말 스탠포드대학 병원(Stanford Medical Center)에서 코로나19 백신접종 순서를 둘러싼 논란이 있었다. 비난의 화살은 일선 의료진보다 고위 행정직에 우선권을 준 ‘알고리즘’에 돌아갔다. 당시 본지를 통해서도 보도되었지만, 병원측은 윤리 전문가의 도움을 받아 설계한 “아주 복잡한 알고리즘이 제 기능을 하지 못한 것이 분명하다”고 밝혔다. 이 같은 설명을 두고 당시 많은 이들이 AI 또는 머신러닝과 관련된 것으로 생각했지만, 사실 병원이 의미한 것은 ‘의료 알고리즘(medical algorithm)이었다. 이는 우리가 흔히 생각하는 알고리즘과는 기능적으로 다른 것으로, 의료 알고리즘은 사람으로 구성된 의료위원회가 정하는 매우 단순한 일종의 공식 또는 의사결정 모형을 말한다.

이 같은 차이는 최근 대두되는 한 가지 문제를 적나라하게 보여준다. 예측모델이 빠른 속도로 확산되면서, 예측모델을 통해 중요한 의사결정을 하는 것을 경계해야 한다는 목소리가 높아지고 있는 것이다. 정책입안자들은 알고리즘 평가감사 기준을 정하기에 앞서 자신들이 만든 정책이 적용되는 의사결정 또는 지원 도구가 무엇인지 먼저 규정해야 한다. ‘알고리즘’의 정의를 명확히 정하지 않고 각자의 해석에 맡겨버리면 막강한 영향력을 가진 일부 모델이 그 같은 시스템의 잠재적 악영향을 예방하기 위해 마련된 정책의 범위를 벗어나는 일이 벌어질 것이다.

알고리즘’이란 무엇인가?

그렇다면 스탠포드 병원이 말한 ‘알고리즘’은 과연 알고리즘일까? 답은 알고리즘의 정의에 따라 달라진다. 아직까지 보편적으로 인정되는 ‘알고리즘’의 정의는 없다. 1971년 컴퓨터 과학자 해럴드 스톤(Harold Stone)은 알고리즘을 “연속적인 작업을 명확히 규정한 규칙의 집합체”로 정의했다. 이 정의에 따르면 요리 레시피에서 복잡한 신경네트워크에 이르는 모든 것이 알고리즘에 포함된다. 따라서 이 정의에 기반한 알고리즘 감사 정책은 어이없을 만큼 포괄적 범위를 가질 수밖에 없다.

통계 및 머신러닝 분야에서는 일반적으로 알고리즘을 ‘데이터 학습을 위해 컴퓨터가 실행하는 명령의 집합체’로 본다. 이를 통해 습득된 정보를 구조화한 것이 바로 모델이다. 컴퓨터가 알고리즘에 따라 데이터에서 학습한 정보는 각 투입요소에 곱해지는 ‘가중치(weight)’와 비슷하거나 훨씬 복잡해질 수도 있다. 알고리즘 자체의 복잡성도 천차만별이다. 궁극적으로 알고리즘의 영향력은 알고리즘이 적용되는 데이터, 그리고 알고리즘이 적용된 결과로 구축된 모델이 놓이는 맥락(context)에 의해 결정된다. 동일한 알고리즘이 어떤 맥락에서는 순긍정영향(net positive impact, 긍정적 영향이 부정적 영향을 초과하는 상태)을 가지지만 다른 맥락에서는 전혀 다른 결과가 나올 수 있다.

어떤 분야에서는 통계와 머신러닝 분야에서 모델이라고 불리는 것 자체를 알고리즘이라고 부르기도 한다. 혼동되는 면이 있지만, 넓은 의미에서는 맞는 설명이다. 모델이란 연속적인 작업을 규정한 규칙(인간이 직접 정한 것이 아니라 컴퓨터의 훈련 알고리즘을 통해 학습된 규칙을 말한다)이기 때문이다. 지난해 영국에서는 코로나19로 대입 시험을 실시하는 것이 불가능해지면서 인공지능을 활용해 시험 없이 학생의 성취를 측정하는 방법을 도입했다가 논란이 일었다. 언론에서는 이를 ‘알고리즘’의 실패로 묘사했다. 여기에서 영국 언론이 말한 것은 모델 즉, 투입(학생의 과거 성적 또는 교사의 평가)을 산출(점수)로 전환하라는 명령의 집합체였다.

스탠포드대 병원의 경우, 윤리 전문가를 비롯한 이들이 한 자리에 모여 특정 인물이 우선 백신 접종 대상인지 판단하기 위해 시스템이 수행해야 할 일련의 작업을 결정한 것으로 보인다. 우리가 알기로 이 작업 순서의 결정은 일정한 양적 목표에 최적화된 평가 절차에 기반하여 이루어지지 않았다. 이 순서는 백신 접종의 우선 순위에 대한 규범적 결정을 알고리즘의 언어 형식으로 표현한 것이다. 여기에 사용된 것은 오직 인간의 지능뿐이지만 의료계의 기준과 포괄적 정의에 따라 알고리즘으로 인정받는다.

투입이 아닌 영향을 고려해야

의회도 알고리즘의 정의에 대해 고민하고 있다. 2019년 미 의회에 발의된 알고리즘책임법안(Algorithmic Accountability Act, 번호: HR2291)은 ‘자동화된 의사결정 시스템’이라는 표현을 사용하고, 이를 “소비자에게 영향을 미치는 의사결정을 하거나 소비자에게 영향을 미치는 인간의 의사결정을 촉진하는 컴퓨터 연산 과정으로, 머신러닝이나 통계 또는 기타 데이터 처리 또는 인공지능 기술에서 파생된 것이 포함된다”고 정의했다.

뉴욕시에서 발의된 알고리즘 감사 의무화 법안(번호: Int 1894)은 ‘자동화된 채용 도구’를 ‘통계 이론을 기반으로 기능이 통제되는 일체의 시스템 또는 그 같은 시스템에 의해 매개변수가 정의되는 시스템’으로 정의하고 있다. 주목할 것은 두 법안 모두 감사의 의무화를 주장하면서도 실제 감사에 대해서는 포괄적인 가이드라인만 제시한다는 점이다.

정부와 업계가 동시에 감사 기준 마련에 나서면서 알고리즘의 기준을 두고 의견이 엇갈릴 가능성도 있다. 따라서 하나의 보편적인 정의를 세우거나 일반적인 감사 기법을 마련하려 애쓰기보다, 평가의 주된 기준을 영향(impact)으로 통일할 것을 제안한다. 여기에는 투입이 아닌 산출에 집중함으로써 복잡한 기술을 둘러싼 불필요한 논란을 피할 수 있다는 장점이 있다. 우리가 논의하는 대상이 대수방정식이든 심층신경망이든 중요한 것은 그로 인한 잠재적 폐해이기 때문이다.

영향은 다른 분야에서도 중요한 평가 요소로 활용되고 있다. 2000년대 초반 마이크로소프트가 도입하면서 널리 알려진 후 몇몇 기업에서는 여전히 사용되고 있는 사이버보안 분야의 고전 모델 DREAD에도 영향이 주요 요소로 포함되었다. DREAD의 ‘A’는 ‘영향을 받는 사용자(affected users)’에서 온 것이다. 이는 “발견된 취약성이 얼마나 많은 사람에게 영향을 주는가?”라는 질문을 통해 ‘영향을 받는 사용자’를 계량화하는 것을 의미한다. 영향 평가는 인권 및 지속가능성 평가에도 늘 사용된다. AI 영향 평가 초기 개발자들도 비슷한 평가 체계를 사용했다. 예를 들어 캐나다의 알고리즘영향평가(Algorithmic Impact Assessment)는 “이 업종의 고객이 특별히 취약한가?(‘그렇다,’ ‘아니다’로 답변)’ 같은 질적 질문을 사용한다.

‘영향’처럼 정의가 불분명한 용어를 평가에 도입하는 데에는 분명 어려움이 따른다. 시간이 흐르면서 DREAD는 STRIDE로 보완되거나 대체되었다. 모델링 결과에 대한 서로 다른 해석으로 인한 갈등이 원인 중 하나로 꼽힌다. 마이크로소프트는 2008년에 DREAD 사용을 중단했다.

AI 분야에서는 각종 회의와 학술지에는 영향평가서가 이미 등장했는데, 성공 여부와 논란의 정도는 저마다 다르다. 단 하나 확실한 것은, 그 어떤 것도 완벽과는 거리가 멀다는 것이다. 수식으로 무장한 평가는 조작될 가능성이 크고, 정의가 지나치게 모호한 경우는 자의적이거나 극단적으로 장황한 평가로 흐를 수 있기 때문이다.

그럼에도 불구하고 이는 중요한 첫 걸음이다. 그 정의가 무엇이든, ‘알고리즘’이라는 용어가 시스템을 설계하고 도입한 사람을 시스템 사용 결과에 대한 책임에서 면제해주는 방패로 사용되어서는 안 될 것이다. 따라서 알고리즘 책임성에 대한 요구가 점점 높아지고 있으며, ‘영향’은 바로 이 요구에 부응하고자 하는 여러 집단에 유용한 공통의 기반이 되어 줄 것이다.

크리스티안 룸(Kristian Lum) 펜실베이니아 대학교(University of Pennsylvania) 컴퓨터정보과학과 연구조교수이다.

루먼 초두리(Rumman Chowdhury)는 트위터(Twitter)의 머신윤리, 투명성, 책임성(Machine Ethics, Transparency, and Accountability, META) 부서 책임자이다. 루먼은 알고리즘 감사 플랫폼 패리티(Parity) 설립자 겸 최고경영자였으며, 액센추어(Accenture)에서 책임성 있는 AI를 위한 글로벌 리더로 활동하기도 했다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.