Lessons from the pandemic’s superstar data scientist, Youyang Gu

코로나19 사망자 수 정확히 예측한 데이터 과학자

구유양(Youyang Gu)은 일주일 만에 머신러닝 모델을 개발하여 매일 노트북으로 프로그램을 실행(1시간 정도 소요)하였다. 그 결과, 코로나19 사망자 수가 놀라울 정도로 정확히 예측되었다.

데이터 과학자 구유양은 자신을 현실주의자라고 생각한다. 본인의 트위터 프로필에 “편견이 없는 사람. 현실주의자!”라고 밝혔다.

지난 봄, 모델 별 코로나19 사망자 수 예측은 중구난방이었다. 여름이면 미국 사망자가 200만 명에 달할 것으로 예상하는 모델도 있었고, 6만 명에 이를 것으로 예측하는 모델도 있었다. 구유양은 이러한 모델링이 정말 좋은 것인지 의문이 들었다. 그는 코로나19 예측 모델을 직접 개발하기로 했다. 맨해튼 소재 본인의 아파트에서 그는 “나의 최종 목표는 가장 정확한 모델을 개발하는 것이었다”고 주장했다. 그는 “‘만약이라는 가정’은 필요하지 않다. 시나리오가 어떤지는 별로 중요하지 않다. 그는 앞으로 일어날 일에 대해서 가장 가능성이 높고 현실적인 예측을 하는 것이 목표”라고 했다.

구유양은 일주일 내에 머신러닝 모델을 만들었고 코로나19 사망자 수 예측 웹사이트를 개설했다. 그는 노트북으로 프로그램을 매일 돌렸으며(1시간 정도 소요), 미국 50개 주, 34개 카운티, 71개국의 코로나 사망자 수 추정치를 게시했다.

4월 말 무렵, 그는 사람들의 주목을 받고 있었다. 수백만 명이 매일 그의 웹사이트를 체크했다. 칼 버그스트롬(Carl Bergstrom) 워싱턴대 생물학과 교수는 트위터를 통해 구유양이 개발한 모델이 “내가 본 모델 중 예측이 정확하다”는 평을 남겼다.

버그스트롬 교수는 다음과 같이 트윗했다. “나는 머신러닝에 대해 다소 회의적이다. 하지만 이번에는, 사람들이 ‘머신러닝’이라는 표현 때문에 구유양이 개발한 모델은 엉터리라고 생각하지 말았으면 한다.”

MIT 전기공학 및 컴퓨터공학 석사학위 소지자(수학 학위도 보유)인 27세의 구유양은 팬데믹 발생 당시 스포츠 분석 스타트업을 운영 중이었다. 그러나 메이저 리그가 셧다운 되면서 회사 운영을 중단해야만 했다. 그는 ‘유행병학(Epidemiology)’에 대해 검색한 뒤 코로나19 모델링 분야로 뛰어들었다.

구유양은 “전염병 모델링에 대해서 전혀 아는 바가 없었다”고 한다. 그는 몇 년 간 금융업계에서 데이터 과학자로 일하며 통계 모델을 연구했다. 이 모델은 특정 통계 가정을 기반으로 데이터를 분석하고 앞으로 주가가 어떻게 될지 예측하는 모델이다.

구유양은 “많은 전염병 모델링이 기본적으로 통계 모델링을 기반으로 한다”고 주장한다. 금융업계는 정확성을 바탕으로 한 이윤 추구가 목표인데, 이것이 유행병학 분야로 진출한 그에게 큰 도움을 주었다. 그는 “금융업계에서 정확한 모델을 개발할 수 없다면, 일자리를 구할 수 없다”고 지적한다. 구유양의 생각이기는 하지만, 학계의 목표는 정확한 모델 개발이 아니라 논문을 발표하고 공공 정책을 알리는 것이다. 그는 “그렇다고 해서 학계가 정확성을 특별히 강조하지 않는다는 뜻이지, 정확한 모델을 안 만든다는 의미는 아니다”라고 주장한다.

구유양이 개발한 모델은 머신러닝과 SEIR 모델이라는 기존의 전염병 시뮬레이터를 결합한 형태이다. SEIR 모델은 감염대상군(Susceptible), 접촉군(Exposed), 감염군(Infectious), 회복군(Recovered), 면역군(Removed) 집단의 개별 요인을 고려한 모형이다.

SEIR 구성 요소는 시뮬레이션된 매개변수 세트를 입력값으로 사용한다. 최선의 추측을 바탕으로, 다음과 같은 변수를 고려한다. 여기에는 기본 재생산(Reproduction) 수(발생 초기, 개입이나 면역 형성 이전에 감염대상군 전체의 신규 사례 발생률), 감염률, 락다운 날짜, 재개 날짜, 유효 재생산 수(일부 개입 후 신규 사례 발생률)가 포함된다. 결과 출력 시, SEIR 시뮬레이터는 시간 경과에 따른 감염률을 먼저 계산한 다음, 사망률(감염 치사율(Infection Fatality Rate) X 감염률)을 산정한다.

그런 다음 구유양의 머신러닝 층(Machine Learning Layer)은 각 지리적 영역에 해당하는 실제 매개변수를 찾기 위해 수천 개의 다른 조합을 생성한다. 또한, SEIR 예측과 존스 홉킨스 대학의 일일 사망자 수에 대한 실제 데이터를 비교하여 어떤 변수가 가장 정확하게 사망자 수를 예측하는지 학습한다. 구유양은 “어떤 변수 세트가 실제 관측된 데이터와 가장 일치하는 결과를 도출하는지 학습한다”라고 말한다. “그런 다음 이 변수를 사용하여 미래의 사망자 수를 예측한다.”

예측은 놀라울 정도로 정확했다. 5월 3일, 그는 CNN 투나잇에 출연하여 예측 결과를 공유했다. 발표에 따르면, 미국 사망자 수는 5월 5일 7만 명, 5월 11일 8만 명, 5월 18일 9만 명, 5월 27일 10만 명에 이를 것으로 추산됐다. 5월 28일, 그는 트위터를 통해 “4일간의 covid19-projections.com 예측은 아주 정확했다”고 밝혔다. 반올림을 조금 했지만 사실이었다.

“작년 1년 동안 내가 완벽했다는 뜻은 아니다. 여러 번 틀리기도 했다. 하지만 우리는 사실 그 자체보다 사실을 찾는 과정을 통해서 과학에 접근하는 법을 터득할 수 있다고 생각한다.” – 구유양

물론 이 모델은 완벽하지는 않았지만, 앰허스트 매사추세츠대학의 생물 통계학자이자 전염병 연구원인 니콜라스 라이크(Nicholas Reich)에게 깊은 인상을 남겼다. 라이크의 연구소는 미국 질병통제예방센터(CDC)와 공동으로 약 100개 국제 모델링 팀의 결과를 수집한다. 라이크는 집계된 모델 중 구유양이 개발한 모델이 “계속 상위권에 속했다”는 것을 파악했다.

10월 6일, 구유양은 가을 대유행 직전 최종 사망자 수 예측을 게시했다. 모델은 11월 1일이 되면 미국의 사망자가 23만 1,000명에 이를 것으로 전망했다. 실제 그 날까지 기록된 사망자 수는 총 23만 995명이었다.

구유양은 10월 초 첫 번째 모델 운영을 종료했다. 사망자 수를 정확히 예측하는 팀이 많아졌기 때문이었다. 그는 대신 실제 감염률과 보고된 감염률을 비교하는 모델로 눈을 돌렸다. 12월이 되자 그는 백신 배포와 달성이 어려워 보이는 ‘집단 면역 경로(Path to Herd Immunity)’를 추적하기 시작했다. 2021년 초반 그는 ‘정상 경로(Path to Normality)’로 방향을 변경했다. 집단 면역은 집단의 상당수가 바이러스에 면역이 생겨서 추가 확산이 감소되었을 때 달성된다. 구유양은 ‘미국 주 대부분이 코로나19 관련 제한 해제된 상태’를 정상(Normality)으로 간주한다.

그는 “2021년에는 아직 전국적으로 집단 면역을 형성하지 못할 것이 분명하다”고 주장한다. “자신감 회복 차원에서, 정상생활 복귀 시기는 언제가 될 지에 대해 합리적 경로를 마련하는 것이 중요하다고 본다. 집단 면역 도달 같은 비현실적인 목표에 얽매여서는 안 된다. 나는 2월에 올 여름이면 정상 복귀가 가능할 것으로 예측을 했었는데, 이 계획이 유효할 것으로 조심스럽게 낙관하고 있다.”

3월 초 구유양은 사업에서 완전히 손을 뗐다. 그는 본인이 할 수 있는 한 많은 역할을 했다고 생각했다. “이제 한 발 뒤로 물러나서 다른 모델 제작자와 전문가들은 어떻게 하는지 보고 싶었다. 상황을 혼란스럽게 하고 싶지 않다”고 입장을 밝혔다.

구유양은 여전히 데이터를 주시하면서, 코로나 변이, 백신 배포, 4차 유행에 대한 연구와 분석을 진행 중이다. 그는 “특별히 걱정스럽거나 우려되는 상황이 생기면, 웹사이트에 꼭 올리겠다”라고 밝혔다. 지금 그는 주식 시세 분석 플랫폼인 ‘욜로 주식(YOLO Stocks)’ 등 기타 프로젝트에 주력하고 있다. 구유양이 팬데믹과 관련하여 수행한 주요 연구로는 세계보건기구(WHO)의 기술 자문 그룹 일원으로서 참여한 연구가 있다. 연구 주제는 코로나19 사망률 분석이었고, 이 연구에서 구유양은 외부 사람들의 전문 지식을 공유한다.

그는 “작년에 정말 많이 배웠다. 진짜 놀라운 경험이었다”고 주장했다.

첫 번째 교훈: 기초에 초점 맞추기

구유양은 “데이터 사이언스 관점에서, 내가 개발한 모델은 때로 과소평가되는 단순함이 얼마나 중요한지를 보여주었다”고 강조한다. 그가 개발한 모델은 설계(머신러닝 층이 있는 SEIR 구성 요소) 면에서 단순했다. 또한, 입력 데이터를 매우 압축된 ‘상향식(Bottom-up)’으로 접근하는 방식도 단순했다.  그의 설명에 따르면, 상향식 접근 방법이란 “최소한 기본으로 시작하여, 필요할 경우 복잡성을 추가한다”는 의미이다. “내가 만든 모델은 미래 사망자 수 예측에 과거 사망자 수만 이용한다. 다른 실제 데이터 소스는 사용하지 않는다.”

구유양은 다른 모델이 다음과 같은 여러 데이터를 이용하는 것을 알았다. 여기에는 사례, 입원, 검사, 이동성, 마스크 사용, 동반질환, 연령 분포, 인구 통계, 계절에 따른 폐렴 감염, 연간 폐렴 사망률, 인구 밀도, 대기오염, 고도, 흡연 데이터, 자진 신고자 연락처, 항공사 승객 운송, 치료 시점(Point of Care), 스마트 온도계, 페이스북 게시물, 구글 검색 등이 포함된다.

그는 다음과 같이 주장한다. “사람들은 모델에 데이터를 추가하거나 모델을 더 정교하게 만들면, 성능이 좋아질 것이라고 믿는다. 그렇지만 팬데믹 같이 데이터에 노이즈가 많은 실제 상황에서는 가능한 단순한 것이 좋다.”

“나는 일찌기 과거 사망률로 미래 사망률을 가장 잘 예측할 수 있다고 판단했다. 아주 간단하다. 입력하고 출력하면 된다. 데이터 소스를 추가하면 노이즈에서 신호 추출이 더 어려워질 뿐이다.”

두 번째 교훈: 가정 최소화

구유양은 백지 상태에서 접근했기 때문에 오히려 더 유리했다고 생각한다. “내 목표는 단지 코로나 데이터를 추적해서 코로나를 제대로 파악하는 것이었다. 이것은 업계 외부 사람이 누릴 수 있는 가장 큰 장점 중 하나이다.”

전염병학자가 아니었던 구유양은 자기의 가정이 맞고 정확하다는 확신이 있어야 했다. 그는 “모델을 설계해서, 가정하는 방법을 학습시키는 것이 내 역할이다”라고 주장한다.

그는 “사람들은 자기가 믿던 신념에 어긋나는 데이터가 새로 나오면, 이를 간과하거나 무시하는 경향이 있다. 이렇게 되면 향후 문제가 생길 수 있다”고 지적한다. “내가 이런 상황의 피해자가 될 수도 있고, 다른 사람도 마찬가지다.”

“따라서 우리가 가지고 있는 잠재적 편향을 인식하고, 이를 인정하며, 기존의 신념을 조정(새로운 데이터가 기존의 신념이 틀렸다는 것을 입증할 경우, 신념을 새로 조정)할 수 있다는 것은 코로나 시대처럼 특히 빠르게 돌아가는 상황에서 매우 중요하다.”

세 번째 교훈: 가설 검

구유양은 “지난 몇 달 동안 관찰한 바에 따르면, 누구나 자신이 믿고 싶은 스토리에 맞게 주장을 하거나 자료를 조작할 수 있다”고 말한다. 이것은 검증 가능한 가설을 세우는 것이 얼마나 중요한지를 시사한다.

그는 다음과 같이 주장한다. “가설 세우기는 내가 예상하고 예측하는 데 있어서 전반적인 바탕이 된다. 내가 일련의 가정을 세웠는데, 이 가정이 사실이라면, 앞으로 무슨 일이 일어날 지 알 수 있다. 만약 가정이 틀렸다면, 우리는 당연히 이 가정이 사실이 아님을 인정하고 그에 따라 조정해야 한다. 검증 가능한 가설을 세우지 않으면, 실제로 옳은지 그른지 입증할 방법이 없다.”

네 번째 교훈: 실수에서 배우기

구유양은 “내 예측이 모두 맞지는 않았다”고 한다. 2020년 5월, 그는 미국 사망자 수가 8월 초면 18만 명에 이를 것으로 내다봤다. 그는 “이 수치는 실제보다 훨씬 더 높다”고 회상했다. (실제 사망자 수 15만 5,000명이었다.)그가 세운 가설은 틀린 것으로 밝혀졌다. “그 결과, 나는 가정을 조정해야 했다.”

당시 구유양은 SEIR 시뮬레이터 상수로 약 1%의 고정 감염 치사율을 사용하고 있었다. 여름에 감염 치사율을 0.4%(추후 약 0.7%) 정도로 하향 조정하자, 예상 사망자 수는 더 현실적인 수치로 내려왔다.

다섯 번째 교훈: 비판세력 포용

트위터에 본인의 예측과 분석을 올린 구유양은 다음과 같이 주장한다. “모든 사람이 내 의견에 동의하지는 않을 것이다. 그들의 입장을 존중한다. 나는 가능한 여러 사람들과 접하고, 내 입장을 옹호하며, 의견도 나누려고 한다. 그렇게 함으로써, 사람들은 어떤 가정을 하며 왜 그 가정이 옳다고 믿는지 생각하게 된다.”

그는 “확증 편향(Confirmation Bias)을 예로 들어보자”고 한다. “내 입장을 제대로 옹호할 수 없다면, 이것이 정말 옳은 주장이라고 할 수 있을까? 이런 주장을 계속 펼쳐야 할까? 다른 사람을 포용함으로써, 이 문제를 어떻게 생각하는지 이해하는데 도움이 된다. 타인이 내 입장을 반박하는 증거를 제시할 때, 내 가정이 틀릴 수도 있다는 점을 인정해야 한다. 이렇게 함으로써 나는 모델 개선에 엄청난 도움을 받았다.”

여섯 번째 교훈: 건전한 비판론 유지

구유양은 “나는 이제 과학에 대해 훨씬 더 비판적이다. 이런 생각이 나쁜 것이 아니다”라고 주장한다. “항상 결과에 의문을 제기하는 것이 중요하다고 생각한다. 물론 건전한 방식이어야 한다. 참 어려운 일이다. 과학을 딱 잘라 거부하는 사람들이 많은데, 이렇게 해서는 안된다.”

그는 “하지만 과학을 맹목적으로 신뢰하지 않는 것도 중요하다”고 덧붙였다. “과학자라고 해서 완벽하지는 않다.” 그는 뭔가 옳지 않은 것 같으면 질문하고 이유를 찾는 것이 합당하다고 말한다. “서로 관점이 다르다는 것은 중요하다. 지난 1년 동안 깨달은 바가 있다면, 어느 누구도 항상 100% 옳지는 않다는 점이다.”

그는 또한 다음과 같이 주장했다. “모든 과학자를 대변할 수는 없지만, 내가 해야 될 일은 불필요한 소음을 모두 제거하고 진실을 밝히는 것이다. 작년 1년 동안 내가 완벽했다는 뜻이 아니다. 여러 번 틀리기도 했다. 하지만 우리는 사실 그 자체보다 사실을 찾는 과정을 통해서 과학에 접근하는 법을 터득할 수 있다고 생각한다.”

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.