Hundreds of AI tools have been built to catch covid. None of them helped.

코로나 진단·예측 위해 개발된 AI 툴만 수백 개…효과는 물음표

코로나19 감염 환자의 진단과 향후 예상되는 위중 정도를 더 빠르고 정확하게 예측할 수 있게 수백 개의 AI툴들이 개발됐지만, 대부분이 의사들에게 실질적인 도움을 주지 못한 것으로 드러났다. 하지만 일각에서는 코로나19 사태가 의료용 AI 발전을 앞당기는 계기가 될 수 있다는 긍정적인 전망도 나온다.

2020년 3월 코로나19가 유럽에 퍼지기 시작했을 때 병원들 심각한 위기에 처했다.

“환자들을 어떻게 치료해야 할지 의사들은 도무지 감을 잡을 수 없었습니다.”

네덜란드 마스트리흐트 대학에서 질병 예측법을 연구하는 전염병 전문가 로어 와이넌츠는 당시 상황을 이렇게 한 마디로 정리해서 말해줬다.

다만 이보다 넉 달 앞서 팬데믹 전쟁을 치르던 중국에서 나온 데이터들이 있었다. 만약 이 데이터를 학습한 머신러닝 알고리즘이 의료진의 이해와 판단을 도울 수 있다면, 더 많은 생명을 구할 수 있을 것이었다.

“저는 ‘AI가 유용하다라는 것을 증명할 날이 왔다’고 생각했어요.” 와이넌츠는 말한다.

그러나 그런 일은 벌어지지 않았다. 노력이 부족해서가 아니었다. 실제로 전 세계 연구진이 발 벗고 나섰다. AI 커뮤니티는 특히 ‘이론적인’ 차원에서 접근하여 병원에서 환자들을 빠르게 분류하고 진단할 수 있는 소프트웨어를 개발하기 위해 달려들었다. 만약 바라는 대로 구현된다면 임상 현장에 무척 도움이 될 일이었다.

그리고 수백 종의 예측 알고리즘이 개발되었다. 하지만 그중 어느 것도 실질적인 변화를 만들지 못했다. 오히려 그중 일부는 위험하기까지 했다. 이것이 지난 몇 달간 발표된 여러 연구의 처참한 결론이다. 지난 6월, 영국의 국립 데이터과학 및 AI 센터인 튜링 연구소(Turing Institute)는 2020년 하반기에 열렸던 일련의 워크숍에서 논의된 내용을 정리하는 보고서를 냈다. 연구자들은 이 보고서에서 AI 툴이 코로나19와 싸우는 데 별다른 도움이 되지 못했다는 데 동의하게 된다.

임상 현장에 부적합한 프로그램들

최근 이를 잘 설명하는 두 연구가 발표되었다. 이 연구들에서는 각각 작년에 개발된 예측 툴 수백여 개를 평가했다. 와이넌츠는 그중 한 편인 영국 의학 저널(British Medical Journal)에 실린 논문의 주저자이다. 이 논문은 새로운 프로그램이 배포되고 평가됨에 따라 여전히 업데이트되고 있다. 그녀와 동료들은 환자를 진단하고 중증도를 예측하는 232가지 알고리즘을 살폈다. 그 결과 그중 무엇도 임상적으로 사용하기에 적절하지 않았다. 다만 단 두 프로그램만이 앞으로 추가 연구를 할 가치가 있었을 뿐이다.

“충격적인 결과였습니다.” 와이넌츠는 말한다.

“약간의 우려와 함께 시작한 일이지만, 실상은 그보다 더 나빴습니다.”

케임브리지 대학의 머신러닝 연구자인 데렉 드릭스(Derek Driggs)와 동료들이 네이처 머신 인텔리전스(Nature Machine Intelligence)에 게재한 또 다른 방대한 리뷰 연구도 와이넌츠의 결론과 궤를 같이한다. 이 연구진은 흉부 엑스레이나 흉부 CT 스캔과 같은 의료영상으로 코로나를 진단하고 환자의 위험성을 예측하는 딥러닝 모델을 살펴보았다. 그들은 와이넌츠와 동료들이 한 것처럼 발표된 415개의 알고리즘을 검토하였고, 그중 무엇도 임상적으로 사용하기에 적절하지 않다는 결론을 얻었다.

“팬데믹은 AI와 의학에 있어 중요한 시험대였습니다.”

팬데믹 기간 동안 의사들을 돕기 위한 머신러닝 툴을 연구한 드릭스는 말한다.

“대중이 팬데믹을 계기로 AI를 긍정적으로 받아들였다면 이는 업계에 많은 도움이 되었을 것입니다. 그러나 우리는 이 시험을 통과하지 못했습니다.”

두 연구팀은 개발자들이 각자의 툴을 학습시키고 시험하는 데서 기본적인 오류를 반복했다는 것을 발견했다. 잘못된 추정이 적용된 데이터로 모델을 학습시키면 이 모델은 올바르게 작동하지 않을 가능성이 크다.

와이넌츠와 드릭스는 여전히 AI가 의료계에 도움이 될 수 있다고 믿는다. 그러나 그들은 동시에 잘못 설계된 AI가 오진하거나 위험성을 저평가함으로써 환자들을 위험에 처하게 할 수도 있다고 우려한다.

“머신러닝 모델의 실제 성능은 아직 사람들의 기대를 충족시키지 못하고 있습니다.” 드릭스는 말한다.

비현실적인 기대 탓에 사람들은 이 프로그램들이 제대로 검증받기도 전에 이를 실제 현장에서 사용하고 있다. 와이넌츠와 드릭스는 그들이 살펴본 몇몇 알고리즘이 이미 병원에 도입되었으며, 일부 기업은 이를 판매하고 있기까지 하다고 말한다.

“그것들이 환자에게 해를 끼칠까 걱정됩니다.” 와이넌츠는 말한다.

그렇다면 무엇이 잘못된 걸까? 그리고 이를 개선하기 위해 우리는 어떻게 해야 할까? 팬데믹을 거치면서 많은 연구자들이 AI 툴 제작 방식에 변화가 필요하다고 명확하게 인식하게 된 점은 긍정적이다.

“팬데믹으로 인해 우리가 한동안 미뤄왔던 문제점들이 부각되고 있습니다.” 와이넌츠는 말한다.

무엇이 잘못되었나

프로그램의 많은 문제는 연구자들이 툴을 개발할 때 사용했던 데이터의 품질이 낮았다는 점에서 기인한다. 영상 자료를 포함한 코로나 환자들의 의료 정보는 팬데믹이 만연한 와중에 환자들을 치료하기 위해 고군분투하던 의사들에 의해 수집되고 공유되었다. 연구자들은 최대한 빨리 알고리즘을 개발하여 의료진들을 돕고자 했고, 이를 위하여 시중에 공개된 의료 정보들을 활용할 수밖에 없었다. 하지만 이는 결국 많은 알고리즘이 출처가 불분명하거나 제대로 분류되지 않은 데이터들을 사용해 만들어졌다는 것을 의미한다.

드릭스는 ‘프랑켄슈타인 데이터 셋(Frankenstein data sets)’의 문제점을 강조한다. 프랑켄슈타인 데이터 셋은 마치 프랑켄슈타인처럼 여러 출처에서 수집한 정보를 조각조각 이어 붙인다. 그래서 동일한 데이터가 중복으로 포함되기도 하는데, 그럴 경우 알고리즘이 학습한 데이터와 동일한 데이터로 테스트 됨으로써 실제보다 더 정확하게 작동하는 것 같은 착시가 발생한다.

또한, 이러한 데이터 셋에서는 데이터의 기원에 대한 정보가 손상될 수 있다. 이로 인하여 연구자들은 그들의 모델을 왜곡시킬 수도 있는 특성들에 대한 정보를 놓칠 수 있게 된다. 예를 들어 많은 데이터 셋에서 코로나 음성 사례로 소아의 흉부 방사선 사진을 사용했는데, 그 결과 AI는 코로나가 아니라 아동을 인식하는 법을 학습했다.

드릭스 연구그룹은 그들의 모델에 환자들이 누워있을 때와 서 있을 때의 방사선 사진이 혼합된 데이터 셋을 학습시켰다. 보통 병이 더 심각한 환자들이 누워서 엑스레이를 촬영하였기 때문에, AI는 누워 있는 상태에서 엑스레이를 촬영한 사람의 코로나가 더 심각한 것으로 잘못 예측했다.

또 다른 사례로는 일부 AI가 특정 병원이 스캔 자료에 라벨을 붙일 때 사용한 글자의 글꼴을 포착한 것으로 드러났다. 그 결과, 중증 환자가 많이 입원한 병원의 글꼴이 코로나 위험성의 예측 변수가 되었다.

이러한 오류들은 지나고 보면 명백해 보인다. 만약 연구자들이 이들을 인지한다면 모델을 최적화하면서 수정할 수도 있다. 따라서 단점을 인정하면서, 정확성은 떨어져도 오인의 소지가 적은 모델을 출시할 수 있다. 하지만 수많은 툴이 데이터의 결함을 찾아낼 의학적 전문성이 결여된 AI 연구자들이나, 혹은 이러한 결함을 보완할 수학적 기술이 부족한 의학 연구자들에 의해 개발되었다는 점이 문제다.

드릭스가 강조했던, 더욱 미묘한 문제는 혼합 편향(incorporation bias), 즉 데이터 셋이 분류되는 시점에 도입된 편향이다. 예를 들어, 많은 의료용 영상 검사들은 그것을 만든 방사선 전문의들이 코로나를 진단한 것에 따라 분류되었다. 하지만 이를 통해 특정 의사의 편견이나 편향이 데이터 셋에 반영될 수 있다. 드릭스는 한 의사의 판독 결과보다는 PCR 검사의 결과에 기반해 코로나 여부를 평가하는 것이 훨씬 더 적절하다고 말한다. 하지만 현실적으로 바쁘게 돌아가는 병원에서 늘 원하는 만큼의 통계적 정밀성을 기대하기는 어렵다.

그렇다고 해서 이 알고리즘들이 임상시험에 서둘러 도입되는 것을 막을 수는 없다. 와이넌츠는 어떤 것들이 어떻게 사용되고 있는지 명확하지 않다고 말한다. 병원은 연구 목적으로만 프로그램을 사용하고 있다고 말하므로, 의사들이 얼마나 그에 의존하는지 가늠하기 어렵다.

“비밀이 많습니다.”

그녀는 말한다.

와이넌츠는 딥러닝 알고리즘을 광고하고 있는 한 회사에 자사의 접근법에 대한 정보를 공유해달라고 문의했지만 아무런 답변을 받지 못했다. 그녀는 이후 이 회사와 관련된 연구자들이 개발한 몇몇 모델들을 발견했는데, 이 모델들은 모두 편향 위험이 높았다.

“우리는 실제로 회사가 어떠한 알고리즘을 적용하고 있는지 모릅니다.” 그녀는 말한다.

와이넌츠에 따르면 일부 병원들은 의료 AI 공급 업체와 비밀유지계약까지 체결하고 있다. 그녀가 의사들에게 어떤 알고리즘이나 소프트웨어를 사용하느냐고 물었을 때, 그들은 외부 공개가 금지되어 있다고 말했다.

상황을 개선할 방법

그렇다면 해결책은 무엇일까? 데이터의 질을 향상시키는 것이 도움이 될 것이다. 하지만 요즘과 같은 위기상황에서는 쉽지 않은 일이다. 그보다는 우리가 이미 가지고 있는 데이터 셋을 최대한 활용하는 것이 더 중요하다. 가장 간단한 조치는 AI팀이 임상 의사와 더 많이 협력하는 것이라고 드릭스는 말한다. 연구진들은 또한 그들의 모델을 공유해야 하고 그 모델을 어떻게 학습시켰는지 공개해야 한다. 그래서 다른 이들도 이를 시험하고 그 위에 자신들의 모델은 구축할 수 있게 해야 한다. “이것이 우리가 오늘날 할 수 있는 두 가지이다.” 그는 말한다. “그리고 이를 통해 우리가 파악한 문제의 50%는 해결할 수 있을 것이다.”

런던에 기반을 둔 세계적인 건강 연구 자선 단체인 웰컴 트러스트(Wellcome Trust)의 임상 기술팀을 이끄는 의사인 빌랄 마틴(Bilal Mateen)은 형식이 표준화되면 데이터를 확보하는 것도 더 쉬워질 것이라고 말한다.

와이넌츠, 드릭스, 그리고 마틴이 공통적으로 인지한 또 다른 문제는, 대다수의 연구자가 공동연구로 기존 모델을 개선하려 하기보다는 각자 자기만의 모델을 개발하기에 급급하다는 것이다. 그 결과 전 세계 연구진들이 공조하여 제대로 검증된 소수의 툴이 만들어지는 대신, 비슷한 성능의 모델 수백 종이 제작됐다.

“이들 모델은 매우 유사합니다. 이들 대다수가 동일한 데이터와 비슷한 기술을 사용합니다. 그리고 모두 동일한 실수를 합니다.” 와이넌츠는 말한다.

만약 이 연구진 모두가 새로운 모델을 만드는 대신 이미 개발되어 있던 모델은 시험하고 개선했다면 지금쯤 우리는 병원에서 실제로 도움이 될 무언가를 얻었을 것이다.”

어떤 의미에서 이것은 연구의 오래된 문제이다. 학계 연구자들은 작업을 공유하거나 기존 결과를 검증해도 얻을 수 있는 것이 거의 없다. 마틴은 기술이 실험실에서 임상으로(lab bench to bedside) 가기 위한 마지막 고비를 넘는 데에 따르는 보상은 없다고 말한다.

이 문제를 해결하기 위해, 세계보건기구(WHO)는 국제 보건 위기 상황에서 적용 가능한 긴급 데이터 공유 계약을 고려하고 있다. 이를 통해 연구자들은 국경을 초월하여 데이터를 더 쉽게 공유할 수 있다고 마틴은 말한다. 지난 6월 영국에서 열린 G7 정상회의에 앞서 참가국의 주요 과학 단체들도 향후 건강 비상사태에 대비해 ‘데이터 준비태세(data readiness)’를 촉구했다.

그러한 계획들은 약간 모호하게 들리고, 변화를 요구하는 것은 항상 너무 희망적인 것처럼 보이기도 한다. 그러나 마틴은 그가 말하기로 ‘순진하게 낙관적인’ 견해를 가지고 있다. 팬데믹 이전에, 그러한 계획들을 시도하기 위한 동력은 정체되어 있었다.

“오르기에 너무 높은 산이면서 그럴만한 가치도 없었던 것처럼 느껴졌습니다.” 그는 말한다.

“코로나는 이 많은 것을 다시 의제로 올려놓았습니다.”

마틴은 “매력적인 문제에 앞서 매력적이지 않은 문제를 먼저 해결해야 한다는 생각을 인정하기 전까지 우리는 같은 실수를 반복할 수밖에 없습니다.”라고 말한다.

“그렇게 하지 않아서는 안 됩니다. 이 팬데믹의 교훈을 잊는 것은 돌아가신 분들에게 무례한 일이죠.”

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.