All together now: the most trustworthy covid-19 model is an ensemble

가장 믿을 수 있는 코로나19 예측모델은 앙상블

연구자들이 다수의 예측과 전망을 결합하여 불확실성을 낮추기 위해 각고의 노력을 하고 있다.

얼마전 출판 전 논문 저장소 메드아카이브(medRxiv)에 게시된 한 편의 코로나19 전망 관련 논문에는 무려 256명의 저자가 이름을 올렸다.

명단 제일 끝에 이름이 나오는 니콜라스 라이히(Nicholas Reich)는 매사추세츠대학교 애머스트(University of Massachusetts Amherst)에서 생물통계학자 겸 전염병 연구원으로 근무하고 있다. 해당 논문은 라이히와 동료 에반 레이(Evan Ray)가 코로나19 발생 초반부터 주도한 대규모 모델링 프로젝트의 결과를 알리는 보고서였다. 이 프로젝트는 1~4주 기간의 코로나19 전염률, 입원률, 사망률에 대한 다양한 단기 예측 모델을 비교하려는 시도에서 출발했다. 보고서에 따르면 예측 모델마다 사용하는 데이터와 방법이 제각각인데다 예측 결과마저 크게 달랐다.

“모니터 여러 대에 결과를 띄어 놓고 단순 비교를 하려고 노력했지만 도저히 불가능했다”고 라이히는 털어 놓는다(퍼즐풀기와 저글링이 취미다).

2020년 4월 라이히의 연구팀은 분석을 표준화하기 위해 미국 질병통제예방센터(Centers for Disease Control and Prevention)와 손잡고 코로나19 전망 허브(COVID-19 Forecast Hub) 프로젝트를 시작했다. 매주 다수의 모델에서 산출된 결과를 수집 및 평가하여 ‘앙상블 모델(ensemble model)’을 도출하는 것이 주요 과제이다. 라이히는 “단일 모델은 최선의 방법이 아니다. 다수의 모델을 결합하거나 통합하면 단기 예측의 정확도를 최상으로 끌어올릴 수 있다”는 것이 이 연구의 주요 결론이라고 밝힌다.

“목표 지점이 좁을수록 명중률은 낮아진다”

세바스찬 펑크

단기 예측의 목적은 가까운 미래에 상황이 달라질 가능성을 전망하는 데 있다. 이런 전망은 보건 당국의 의사 결정과 정책 집행에 매우 중요하지만, 불확실성이 끊임 없이 달라지는 팬데믹 상황에서는 얻기 매우 힘든 정보이다.

런던위생열대의학대학원(London School of Hygiene & Tropical Medicine)의 전염병 역학자 세바스찬 펑크(Sebastian Funk)는 스웨덴의 유명한 의사 한스 로슬링(Hans Rosling)이 2014년 에볼라 사태 당시 라이베리아 정부를 도왔던 경험을 회고하며 한 발언을 인용한다. “우리는 작은 정보에 파묻혀 싸움에서 지고 있었다… 우리가 알아야 할 것은 환자가 늘어날지, 줄어들지, 아니면 똑같은 수준으로 유지될지 이것이 전부다.”

펑크는 “여러 데이터 스트림에 존재하는 잡음(noise)이 진정한 추세를 가리는 것을 고려하면, 그 일 자체가 늘 쉬운 것은 아니다”라고 말한다. 펑크의 팀은 미국 전망 허브에 자료를 제공한다. 지난 3월에는 유럽 질병예방통제센터(European Centre for Disease Prevention and Control)와 손잡고 유럽 코로나19 전망 허브(European COVID-19 Forecast Hub) 프로젝트도 시작했다.

명중률을 높이려는 노력

지금까지 미국 코로나19 전망 허브에 전 세계에서 100여 개 팀이 자료를 제공했다. 학계, 산업계, 정부는 물론이고 유양 구(Youyang Gu) 같은 데이터 과학자를 비롯한 독립 연구자도 참여했다. 이들은 대부분 실제 세계를 반영하는 방법으로 표준 역학 프레임워크를 택했다. 그렇지만 일부는 수치를 대량으로 고속 처리하여 추세를 전망하는 통계모델이나 딥러닝 기법을 활용했고, 또 다른 일부는 여러 기법을 복합적으로 활용하기도 했다.

허브에 참여하는 연구팀은 매주 점 예측(point forecast) 즉, 구체적 수치로 표현된 전망(예를 들어, ‘앞으로 일주일 동안 사망자 500명 발생’)을 허브에 보낸다. 이외에 확률 예측(probabilistic prediction)도 보낸다. 확률 예측은 일정한 구간으로 확진자 또는 사망자 수를 설정하고, 각 구간의 불확실한 정도를 확률로 표시한다. ‘사망자 100-500명 구간의 확률은 90%, 300-400명 구간은 50%, 350-360명 구간은 10%’와 같이 표현된다.

라이히는 이를 “과녁의 정중앙에 포커스를 점점 맞추는 것”에 비유한다.

“목표 지점이 좁을수록 명중률은 낮아진다”고 펑크는 덧붙인다. 미세한 균형을 맞추는 것이 핵심이다. 구간이 지나치게 넓으면 명중률은 높아지지만 사용성이 떨어지기 때문이다. “목표를 최대한 정밀하게 정하되 명중률도 높아야 한다”고 펑크는 강조한다.

앙상블 모델은 개별 모델에서 산출된 결과를 대조 및 평가하는 과정에서 정보를 최적화하면서 단점은 완화한다. 이를 통해 확률 예측 또는 통계 평균이라고도 불리는 ‘중간 값 예측(median forecast)’이 산출된다. 기본적으로 중간 값 예측은 미세한 조정을 통해 불확실성을 현실성 있게 표현한 전망치 중간값(consensus)이다. 이 과정에서 모든 불확실성 요인이 소거된다.

라이히의 연구팀은 예상 사망자 수를 중심으로 지난 해 5월 중순부터 12월 말까지 발표된 약 20만 건의 예측을 평가한 결과, 모델 별로 예측력에 큰 차이가 있다는 것을 발견했다(이후 4개월 동안 발표된 자료의 분석 결과도 곧 나온다). 같은 모델에서 산출된 예측이 어떤 주에는 정확했다가 그 다음 주에는 심하게 빗나가기도 했다. 그런데, “연구 팀들이 보낸 예측 값을 모두 통합한 앙상블 모델은 전반적인 확률 정확도가 가장 높았다.”

이 같은 앙상블 모델은 높은 정확도 뿐만 아니라 예측 모델에 대한 대중의 신뢰 강화에도 기여한다고 토론토대학교(University of Toronto) 달라라나 공중보건대학원(Dalla Lana School of Public Health)의 역학자 아쉴레 튀트(Ashleigh Tuite)는 말한다. 튀트는 “앙상블 모델의 교훈 중 하나는 완벽한 모델은 없다는 것”이라며 “앙상블 모델도 중요한 것을 놓칠 때가 있다. 일반적으로 모델을 통해 변곡점 즉, 최고치 또는 무엇이 갑자기 빨라지거나 느려질지를 예측하기가 어렵다”고 덧붙인다.

“모델은 신의 계시를 일방적으로 전달하는 도구가 아니다”

알레산드로 베스피냐니

앙상블 모델이 이번 코로나19 상황에만 특별히 사용되고 있는 것은 아니다. 사실 우리는 구글에서 날씨와 강수 확률을 검색하면서 확률론적 앙상블 예측 모델을 매일 경험한다. 앙상블 모델은 오늘날 기상예보와 기후전망에 사용되는 표준 모형이기도 하다.

“[앙상블 모델은] 약 30년 동안 성공적으로 역할을 수행했다”고 독일 하이델베르그 이론연구소(Heidelberg Institute for Theoretical Studies) 및 카를스루에 공대(Karlsruhe Institute of Technology)의 계산통계학자 틸만 크나이팅(Tilmann Gneiting)은 말한다. 크나이팅은 앙상블 모델이 등장하기 전에 기상예보에 사용되던 개별적인 수치모델은 “신뢰 수준이 이상할 정도로 높지만(overconfident), 품질은 믿을 수 없는(unreliable)” 원형(raw form)의 결정론적 예측 값을 생산했다고 설명한다. (그래서 1960년대까지 기상예보관들은 이렇게 산출된 예측 값을 통계 분석을 통해 합리적으로 믿을 만한 수준의 자료로 바꾸어 강수 예보에 활용했다.)

그렇지만 전염병 예측을 기상예보와 비교하는 것은 한계가 있다고 크나이팅은 지적한다. 무엇보다 강수 확률은 우리의 행동에 따라 영향을 받지 않는다. 우리가 우산을 쓰든 안쓰든, 비가 온다면 오는 것이다. 그렇지만 코로나19 확산은 우리가 하는 행동에 따라 달라진다.

전염병 진행될 동안 예측은 결과가 다시 원인에 영향을 미치는 순환 시스템에 종속된다. “모델은 신의 계시를 일방적으로 전달하는 도구가 아니다”라고 노스이스턴 대학교의 전산역학자로 앙상블 허브에 참여하는 알레산드로 베스피냐니(Alessandro Vespignani)는 말한다. 베스피냐니는 그 같은 순환 구조가 작동하게 하는 ‘기술사회(techno-social)’ 시스템을 중심으로 복잡계 네트워크 및 전염병 확산을 연구한다. “어떤 모델이든 일정한 가정이 주어지면 그에 따라 [다른] 답을 산출한다.”

우리가 모델을 통해 예측을 하고 나면 그 후 우리의 행동이 달라진다. 그러면 처음의 가정이 더 이상 유효하지 않게 되고, 질병을 둘러싼 역학이 변화하고, 예측의 정확도는 낮아진다. 이렇게 볼 때, 모델링은 일종의 ‘자기파괴적 예언’이라고 할 수 있다.

그 밖에 불확실성을 확대하는 다른 요인에는 계절성 요인, 변이 바이러스, 백신 수급, 백신 접종률, CDC의 신속한 마스크 착용 지침 변경 등이 있다. “앞으로 불확실성이 어느 정도일지 알고 싶겠지만, 이 모든 요인으로 인해 우리가 얘기할 수 있는 내용이 크게 제약된다”고 존스홉킨스 블룸버그 공중보건대학(Johns Hopkins Bloomberg School of Public Health)의 역학자 저스틴 레슬러(Justin Lessler)는 말한다. 레슬러도 앙상블 허브에 참여하고 있다.

앙상블 연구가 사망자 수 예측을 살펴본 결과 예측 기간이 길수록 정확성은 낮아지고 불확실성은 높아지는 것으로 나타났다. 예측 기간이 4주인 경우 1주인 경우에 비해 오차율이 약 두 배 높았다(4주는 단기 예측이 유의미할 수 있는 한계 기간이다. 예측 기간을 20주로 확대하면 오차율이 약 다섯 배 높아진다).

 “예측이 맞았을 때와 그렇지 않았을 때 모두 토론하는 것이 옳다”

요하네스 브라허

모델의 품질을(약점 포함) 평가하는 것은 앙상블 허브 프로젝트의 두 번째로 중요한 목표이다. 이는 쉽게 달성할 수 있는 목표다. 단기 예측은 매일 집계되는 실제 수치와 바로 비교할 수 있기 때문이다.

대부분의 연구자는 ‘예측 모델(forecast model)’과 ‘시나리오 모델(scenario model)’을 구분하는 데 신중을 기한다. 예측 모델은 미래에 대한 명확하고(explicit) 검증가능한(verifiable) 예측을 목표로 한다(단기만 가능). 반면 시나리오 모델은 ‘만약(what if)’의 상황을 가정하여 중장기적으로 전개 가능성이 있는 방향 전망에 목적이 있다. 특히, 시나리오 모델은 ‘예측’을 위한 것이 아닌 만큼, 추후에 시나리오를 실제 상황과 비교하여 평가하지 않는다.

코로나19가 시작된 이후 예측이 크게 빗나간 모델이 큰 비판을 받는 일이 여러 번 있었다. “만약의 상황을 가정하는 중장기 전망은 평가하기가 어렵지만, 단기 예측을 실제와 비교하는 것을 피해서는 안 된다”고 요하네스 브라허(Johannes Bracher)는 말한다. 하이델베르그이론연구소(Heidelberg Institute for Theoretical Studies) 및 칼스루헤연구소(Karlsruhe Institute of Technology) 소속 생물통계학자인 브라허는 독일 및 폴란드 허브를 조율하고 유럽 허브에 자문을 제공한다. 브라허는 “예측이 맞았을 때와 그렇지 않았을 때 모두 토론하는 것이 옳다”고 말한다. 그렇지만 근거에 기반한 토론을 위해서는 우선 모델의 한계와 의도를 인정하고 고려하는 것이 필요하다(가장 신랄하게 비판하는 이들 중 시나리오 모델과 예측 모델을 헷갈리는 경우가 가끔 있다).

“중요한 질문은 ‘개선이 가능한가’이다”

니콜라스 라이히

마찬가지로, 예측을 수행하기가 특히 어려운 조건이라면 연구자는 그것을 있는 그대로 말해야 한다. “우리가 하나 배운 것이 있다면, 감염률은 단기 예측을 하는 것도 지극히 어렵다는 것”이라고 브라허는 말한다. “사망은 [감염에 비해] 후행성이 높고 따라서 예측하기가 상대적으로 쉽다.”

지난 4월 몇몇 유럽 모델이 지나치게 비관적인 예측을 내놓으면서 코로나19 확산의 급격한 감소를 예측하는 데 실패했다. 그러자 예측의 정확성과 신뢰성에 대한 논쟁이 일었다. 브라허는 트위터에서 논쟁에 뛰어들었다. “모델이 (종종) 틀리는 것이 놀라운 일이냐고 묻는다면, 코로나19가 시작된 지 1년이 지난 지금, 나는 ‘아니요’라고 답하겠다.” 브라허는 이로 인해 모델이 확실성 또는 불확실성의 정도를 드러내고, 감염 예측의 어려움과 향후 경로에 대해 현실성 있는 자세를 취하는 것이 그 어느 때보다 중요해졌다고 강조한다.

특정 모델에 대한 높은 신뢰

통계 분야에서 자주 인용되는 문구 중에 “모델은 모두 틀렸다. 그런데 몇몇은 유용하다”는 말이 있다. 그렇지만 브라허는 이렇게 얘기한다. “앙상블 접근법을 택한다는 것은, 어떤 의미에서는, 모든 모델이 유용하다는 점을 인정하는 것이다. 모든 모델이 각자 기여할 부분이 있다는 뜻이다” 단, 다른 모델에 비해 기여하는 정보가 많거나 신뢰성이 높은 모델이 있을 수 있다.

이 같은 우여곡절을 지켜본 라이히와 동료들은 앙상블 모델의 ‘훈련’에 나섰다. 앙상블 모델을 ‘훈련’한다는 것은 “앙상블 모델이 특정 모델을 더 신뢰하고, 서로 잘 어울리는 구체적인 모델 조합이 무엇인지 학습하도록 알고리즘을 구축하는 것”이라고 라이히는 설명한다. 현재 브라허의 연구팀은 그동안 결과가 꾸준하게 좋았던 모델로만 구성되고, 따라서 가장 분명한 신호를 강화하여 결과를 산출할 수 있는 미니 앙상블 모델에 참여하고 있다.

라이히는 “중요한 질문은 ‘개선이 가능한가?’”라고 말한다. “원래 방법은 정말 단순하다. 이 모든 모델의 단순 평균을 구하는 것보다는 나은 방법이 있어야 할 것 같다.” 그런데, 지금까지는 이것이 생각보다 어려운 일이라는 점이 분명해지고 있다. 작은 개선은 가능할 것 같지만 극적인 개선은 불가능에 가까워 보인다.

코로나19 확산을 1주 단위로 예측하는 것을 넘어, 상황 전반을 바라보는 안목을 키우는 방법은 ‘시나리오 모델’을 통해 전망 범위를 4~6개월 정도로 확대하는 것이다. 급격한 재확산세가 시작되고 백신 출시가 임박했던 지난 12월 레슬러와 동료들은 CDC와 논의하여 코로나19 시나리오 모델링 허브(COVID-19 Scenario Modeling Hub) 프로젝트를 시작했다.

시나리오 모델은 정교하게 정의된 ‘만약(what if)’의 가정을 토대로 향후 전개될 상황의 한계를 설정한다. 불확실성의 주된 원인을 파악하고, 향후 예상 경로를 도표로 만들 때 이를 레버리지 포인트(leverage point)로 삼는다.

이를 목표로 펜실베이니아 주립대학교(Penn State University)의 이론생태학자이자 시나리오 모델링 허브 조정관인 카트리오나 시아(Katriona Shea)는 불확실성이 높은 환경에서 좋은 결정을 내리기 위해 한 가지 공식 절차를 도입하기로 했다. 다양한 의견을 수렴하되 편향과 혼란은 최소화할 수 있는 ‘전문가 의견수렴(expert elicitation)’ 절차를 가동하여 연구자들의 의견을 청취하기로 한 것이다. 이 절차에 따라 연구자들은 모델링할 시나리오를 결정할 때 각 시나리오의 중요성에 대해 논의하고, 유용한 시나리오가 무엇인지 알기 위해 당국에 지침을 요청하기도 한다.

또, 상점 영업 재개에서 여름 휴가 계획, 확산세를 꺾기 위한 과감한 의사결정 그리고 현실적인 대응 전략 수립을 위한 단순한 정보 제공에 이르기까지, 전망이 발표된 후 이어질 다양한 분야의 주요 결정들도 고려한다.

시나리오 모델링 허브는 이제 막 5차 모델링을 마쳤다. 미국의 전국 백신 접종률이 83%까지 올라가는 경우와 68%에 그치는 경우, 마스크 착용, 사회적 거리두기 같은 비약물성 중재(non-pharmaceutical intervention)가 50% 감소할 경우와 80% 감소할 경우, 현재부터 10월까지의 감염률, 입원률, 사망률 추세를 도표에 표시했다.

백신 접종률이 낮은 경우와 높은 경우, 중재(마스크 착용, 사회적 거리두기)가 크게 감소할 경우와 적당히 감소할 경우를 가정하여 시간(X축)에 따른 사망률(Y축) 변화를 나타낸 시나리오 허브의 5차 모델링 결과. 색상은 각 연구 팀을, 구간의 넓이는 불확실성의 정도를 나타낸다. 검은색 실선은 앙상블 모델의 예측 결과이다.
시나리오 모델링 허브

그 중 밝은 미래를 보여주는 시나리오는 백신 접종률이 높고 비약물성 중재(마스크 쓰기, 사회적 거리두기)가 지속되는 경우이다. “상황이 완화세에 접어든 후 쭉 이어질 것”이라고 레슬러는 말한다. 그렇지만 정반대의 경우, 가을쯤 확산세가 다시 높아질 것으로 보인다. 다만 이 경우는 모델 별로 차이가 있었다. 낮은 감염률과 사망률이 유지될 것으로 본 모델도 있지만 앙상블 모델보다 훨씬 큰 폭의 재확산을 예상한 모델도 있다.

시나리오 모델링 허브는 앞으로 몇 차례 더 모델링을 실시할 예정이다. 다만 시나리오에 대한 논의는 여전히 계속되고 있다. 가능성 있는 시나리오에는 전염성이 높은 변이 바이러스의 등장, 면역회피(immune escape) 능력이 있는 변이 바이러스의 등장, 백신 접종 수 개월 후 면역력 약화가 있다.

우리가 비록 시나리오의 전개 방향에 영향을 미칠 수는 없지만, 전개되는 상황에 따라 어떤 계획으로 대응해야 할지를 고민할 수는 있다고 레슬러는 말한다.

레슬러는 우리 모두 마음으로 간절히 기원하는 시나리오가 하나 있다며 이렇게 덧붙인다. “나는 코로나19의 종식이라는 시나리오를 맞을 준비를 마쳤다.”

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.