Meet the people who warn the world about new covid variants

과학자들, 새로운 바이러스 변이 출현을 경고하다

코로나19 바이러스의 진화 추적에 애쓰고 있는 과학자들이 잘 알려지지 않은 어느 시스템을 활용하고 있다. 이 시스템은 스코틀랜드의 젊은 연구원 몇 명이 개발했다.

지난 3월, 인도 전역에 코로나19 감염 사례가 급증하기 시작했을 때 바니 졸리(Bani Jolly)는 바이러스의 유전자 코드에 대한 답을 찾아 나섰다.

영국의 연구진은 자국에서 감염자 수가 급증한 이유가 (곧 알파라고 불리게 될) B.1.1.7이라는 코로나19 변이 때문이었다는 소식을 전하면서 과학계를 뜨겁게 달궜다. 인도 뉴델리 소재 CSIR 유전체학 및 통합 생물학 연구소(CSIR Institute of Genomics and Integrative Biology) 박사과정 3년차 학생인 졸리는 인도에서도 B.1.1.7이 확산을 주도하고 있음을 발견했다.

이 연구소가 인도 코로나19 연구의 선두에 있기 때문에, 졸리는 인도 전역에서 채취한 수천 개의 코로나19 검체에서 나온 바이러스 유전자 염기서열에 접근할 수 있었다. 졸리는 이들 데이터를 코로나19 계통도에 따라 분류해주는 소프트웨어에 입력해 작업하기 시작했다.

B.1.1.7 변이들로 구성된 밀도 높은 덩어리 대신, 졸리는 세상에 알려져 있던 모든 변이들과 전혀 달라 보이는 염기서열 무리를 발견했다. 그 중 일부는 이미 바이러스를 더 위험하게 만들 것으로 의심되던 두 가지 스파이크 단백질의 돌연변이를 가지고 있었다.

졸리는 지도교수에게 이 사실을 말했고, 교수는 인도 각지의 염기서열 분석 연구소들에 연락을 취해볼 것을 제안했다. 각 연구소들 데이터 역시 지역 발병으로 인해 코로나19의 새로운 계통이 생겨났다는 징후를 보였다.

얼마 지나지 않아 기자들이 이 새 변이 발생에 대해 알게 되었고, 졸리는 ‘이중 변이(double mutants)’와 ‘인도 변이(Indian variant)’에 관한 기사들을 보기 시작했다.

졸리는 ‘코로나 변종 바이러스(scariant)’라는 별칭보다는 유용한 명칭을 붙여야 연구자들이 더 많은 일을 할 수 있다는 것을 알고 있었다. 그래서 소규모 과학자 집단이 새로운 변이에 이름을 붙여주는 곳으로 갔다. 즉, 전 세계에 있는 소수의 지원자들이 스태프로 일하고 있고 스코트랜드 박사과정 학생이 주도하고 있는 어느 깃허브 페이지(GitHub page)로 말이다.

이 지원자들은 팽고(Pango)라는 시스템을 감독하고 있다. 팽고는 조용히 전 세계 코로나19 연구의 필수 요소가 되었다. 현재 이 소프트웨어 도구와 명명 시스템은 전 세계 과학자들이 약 250만 개의 바이러스 샘플을 이해하고 분류하는 데 도움이 되고 있다.

지난 4월, 졸리는 이 염기서열들에서 발견한 내용을 깃허브 페이지에 게시했다. (졸리는 이 새 변이에 대한 정보를 두 번째로 게시한 사용자였다. 첫 게시물은 며칠 먼저 영국의 한 연구원이 올렸다.) 팽고팀은 국제 인플루엔자 정보공유기구(GISAID)의 데이터베이스에서 이 유전체들을 찾아보고 코로나19 바이러스에 중대한 변화가 있었다는 데 동의했다. 팽고팀은 신속하게 이 새로운 종(strain)에 B.1.617이라는 새 명칭을 부여했다. 그 후 이 계통은, 미디어에선 델타 변이로 알려진 악명 높은 변이(B.1.617.2)를 포함하는 종으로 발전했다.

졸리는 “팽고 덕분에 우리가 보고 있는 정보를 다른 연구원들이 보고 있는지를 아주 쉽게 알 수 있게 됐다”며 “만약 다른 이들이 보지 못했다면, 인도에서 보고 있는 데이터를 팽고에 올리기도 매우 쉬워서, 다른 지역에서도 이를 추적할 수 있다”고 말한다.

전 세계의 연구원과 공중 보건 관리자, 언론인들은 팽고를 이용해 코로나19 바이러스의 진화를 이해하고 있다. 그러나 이 모든 활동이 (코로나19 유전체학 분야와 마찬가지로) 소규모의 젊은 연구원들에 의해 추진되고 있다는 사실을 아는 사람은 거의 없다. 이 연구원들은 팽고 구축을 위해 종종 자신의 연구마저 보류하고 있다.

너무 많은 데이터

사람들은 바이러스 계통도(virus’s family tree) 작성 과정에 있어 (어떤 바이러스가 한 사람씩 차례로 전염시키며 진화한다고 추정하면서) 공식적이면서도 유효성이 검증된 새 계통(new branches) 명명 체계가 오랫동안 있어왔다고 생각할지도 모르겠다. 어쨌든 연구자들은 바이러스 연구를 위해 유전체 염기서열 분석을 20년 동안 사용해왔다.

그러나 역사적으로 이런 바이러스 염기서열 분석 연구는 규모 면에서 훨씬 적은 데이터를 처리해야 했으며, 코로나19 염기서열 분석에서 하듯 공동 연구를 하며 다른 대륙에 있는 과학자들과 공유하는 데이터도 거의 없었다. 게다가 표준화된 명칭 개발에 대한 필요성이 절박했던 때도 전혀 없었다.

2020년 3월, WHO가 팬데믹을 선언했을 때, GISAID는 524개의 코로나19 게놈 데이터를 보유하고 있었다. 다음 달에 과학자들은 6,000개를 더 업로드했다. 5월 말까지는 총계가 35,000개가 넘었다. (이에 반해 2019년 한 해 동안 전 세계 과학자들이 GISAID에 추가한 독감 게놈 데이터는 40,000개에 불과했다.)

팽고 활동에 기여하고 있는 예일 공중보건 대학원 유전체 역학 박사후 연구원 앤더슨 브리토(Anderson Brito)는 “명칭이 없는 것은 잊어라. 왜냐하면 다른 사람들이 무슨 말을 하고 있는지 이해할 수 없기 때문이다”라고 말한다.

코로나19 유전체 염기서열의 수가 급증하면서 이를 연구하려는 연구자들은 완전히 새로운 인프라와 표준을 즉각적으로 만들어나가야 했다. 보편적 명명 시스템은 이 활동의 가장 중요한 요소 중 하나였다. 명명 시스템이 없다면 과학자들은 (문제를 제기하기 위해서든지, 더 중대하게는 위급함을 알리기 위해서든지 간에) 코로나19 바이러스의 후손들이 어떻게 이동하고 변화하는지에 대해 서로 이야기하는 데 어려움을 겪을 것이다.

팽고는 어떻게 시작됐나

2020년 4월, 영국과 호주의 저명한 바이러스학자 몇 명은 코로나19바이러스의 계통(lineages)을 명명하기 위한 문자와 숫자로 된 시스템을 제안했다. 이는 논리적이고 체계적이었다. 비록 이 시스템으로 생성해낸 이름이 B.1.1.7과 같이 다소 길고 복잡했지만 말이다.

이 논문의 공저자 중 한 명은 에든버러대학 박사 후보생 아이네 오툴(Áine O’Toole)이었다. 곧 오툴은 정렬과 분류 작업을 실제로 수행하는 핵심 인물이 되어서 결국 수십만 개의 염기서열을 직접 탐색했다.

“아주 초기에는 단지 게놈 데이터의 수집·관리가 가능한 사람일 뿐이었다. 그러다 결국 그 작업은 꽤 오랫동안 내 일이 되었다. 나는 우리가 하는 작업이 이르게 될 규모를 전혀 이해하지 못했던 것 같다”라고 오툴은 말한다.

오툴은 새 유전체를 올바른 계통에 넣는 소프트웨어 구축에 빠르게 착수했다. 그 후 얼마 지나지 않아 또 다른 박사후 연구원 에밀리 셰어(Emily Scher)가 머신러닝  알고리즘을 개발해 속도를 훨씬 높였다.

“명칭이 없는 것은 잊어라. 왜냐하면 다른 사람들이 무슨 말을 하고 있는지 이해할 수 없기 때문이다.”

예일 공중보건 대학원의 박사후 연구원 앤더슨 브리토

이들은 이 소프트웨어 이름을 ‘팽골린(Pangolin, 천산갑이라는 뜻)’이라고 지었는데, 이는 코로나19 바이러스의 동물 기원 논쟁을 비꼬는 말이었다. (지금은 전체 시스템을 그저 팽고라고 부른다.)

이 명명 시스템은 이를 실행하는 소프트웨어와 함께 곧 글로벌 필수품이 되었다. WHO는 최근 특별히 우려되는 변이에 대해 델타와 같은 그리스 문자를 사용하기 시작했지만, 이런 별칭은 대중과 언론을 위한 것이다. 델타는 실제 성장하고 있는 한 변이군을 가리키며, 과학자들은 이를 보다 정확한 팽고 명칭인 B.1.617.2와 AY.1, AY.2, AY.3라고 부른다.

졸리는 “영국에서 알파 변이가 나타났을 때 우리는 팽고 덕분에 우리 유전체에서 알파 변이의 돌연변이들(mutations)을 찾기가 매우 쉬웠다. 그래서 우리나라에도 이 계통이 있는지를 확인할 수 있었다”고 말한다. “그 후로 팽고는 인도 변이의 보고 및 감시를 위한 기준으로 사용되고 있다”고 졸리는 덧붙인다.

팽고는 혼돈 상태에 빠질 뻔한 상황에, 합리적이고 질서정연한 접근법을 제공했기 때문에 바이러스 종(strains)을 명명하는 방식이 아예 바뀔 수도 있다. 이로써 전 세계 전문가들은 공유된 어휘로 협업을 할 수 있다. 브리토는 “아마 이 명명법은 새로운 바이러스를 추적하는 데 사용할 포맷이 될 것으로 보인다”고 말한다.

지난 1년 반 동안 코로나19 게놈 추적을 위한 많은 기초 도구들이 오툴과 셰어와 같은 초기 경력 과학자들에 의해 개발되고 유지돼왔다. 코로나19 글로벌 공동 연구의 필요성이 폭발적으로 증가하자 과학자들은 팽고와 같은 임시적 인프라를 이용해 서둘러 이를 뒷받침했다. 이러한 작업의 대부분은 신기술 사용에 능숙한 20대와 30대의 젊은 연구원들이 도맡았다. 이들은 오픈소스(open source)인 비공식 네트워크와 도구를 사용했다. 이는 시스템을 무료로 사용할 수 있었을 뿐 아니라 누구나 자발적으로 수정 사항과 변경 사항을 추가할 수 있었다는 뜻이다.

올해 초에 이 프로젝트에 합류한 캘리포니아대학 산타크루스 생물정보학자 앤지 힌릭스(Angie Hinrichs)는 “새로운 기술의 최첨단에 서 있는 사람들은 대학원생과 박사후 연구원들인 경우가 많다”고 말한다. 예를 들어, 오툴과 셰어는 유전체 전염병학자 앤드루 램보트(Andrew Rambaut) 연구실에서 일하고 있다. 램보트는 코로나19 유전체 정보를 중국 과학자들에게서 받은 뒤 처음으로 온라인에 이를 공식 게시한 학자였다. 힌릭스는 “마침 오툴과 셰어는 대단히 중요한 이 도구를 제공할 수 있는 완벽한 여건 속에 있었다”고 말한다.

빠른 구축

쉬운 일은 아니었다. 2020년 내내 오툴은 새 계통을 식별하고 명명하는 대부분의 책임을 스스로 떠맡았다. 대학은 문을 닫았지만, 오툴은 램보트 연구실의 또 한 명의 박사과정 학생 베러티 힐(Verity Hill)과 함께 사무실 출입을 허가 받았다. 혼자 사는 아파트에서 학교까지 40분 간 도보로 통학하면서 오툴은 정상적인 생활을 하고 있는 듯한 기분을 느꼈다.

몇 주에 한 번씩 오툴은 GISAID 데이터베이스에서 코로나19 저장소(repository) 전체를 다운로드했다. 데이터는 매번 기하급수적으로 증가했다. 그런 다음 유사해 보이는 돌연변이를 가진 게놈 군이나 잘못 명명되었을지도 모를 이상해 보이는 유전체들을 샅샅이 뒤졌다.

특히 작업을 하다 막히면, 힐과 램보트, 그리고 연구실의 다른 구성원들이 가세해서 명칭에 대해 논의했다. 그러나 지루하고 고된 일은 오툴에게 돌아갔다.

“전 세계 100여 곳에서 온 20,000개의 염기서열을 조사한다고 상상해보라. 전에는 한 번도 들어본 적 없는 곳에서 온 염기서열도 보았다”

에든버러대학 박사 후보생 아이네 오툴

코로나19의 후손들이 새 명칭을 부여 받을 자격이 언제 생기는지를 결정하는 일은 과학일 뿐만 아니라 예술일 수도 있다. 전례 없는 수의 게놈을 일일이 살펴보면서 ‘이것이 코로나19의 새 변이인가, 아닌가?’라고 반복해서 묻는 일은 고된 과정이었다.

오툴은 “꽤 지루했다”고 말한다. “하지만 정말 늘 겸손해야 하는 일이었다. 전 세계 100여 곳에서 온 20,000개의 염기서열을 조사한다고 상상해보라. 전에는 한 번도 들어본 적 없는 곳에서 온 염기서열도 보았다”고 오툴은 설명한다.

시간이 지날수록 오툴은, 분류하고 명명할 새로운 유전체의 양을 따라잡느라 고군분투했다.

2020년 6월, GISAID 데이터베이스에는 57,000개 이상의 염기서열이 저장돼 있었고 오툴은 이를 39개의 변이로 분류했다. 논문 제출 기한 한 달 후였던 2020년 11월에 오툴은 이 작업을 마지막으로 단독 수행했다. 이때 염기서열 전체를 검토하는 데 10일이 걸렸고, 개수는 200,000개에 달했다. (비록 코로나19 때문에 오툴이 진행하던 다른 바이러스 연구는 무색해졌지만, 오툴은 논문에 팽고에 관한 챕터를 추가하고 있다.)

다행히 팽고 소프트웨어는 공동 작업을 위해 구축되어 있고, 다른 소프트웨어들도 등장했다. (졸리가 인도 전역을 휩쓸던 변이를 발견했을 때 의지했던 곳인) 온라인 커뮤니티도 생겨나고 성장했다. 올해 오툴의 작업은 훨씬 더 수월해졌다. 이제 새로운 계통은 주로 전 세계의 전염병학자들이 오툴과 팽고팀 연구원들에게 트위터나 이메일, (오툴이 가장 선호하는 방법인) 깃허브를 통해 연락해올 때 지정된다.

오툴은 “현재의 작업은 보다 대응적(reactionary)”이라고 말한다. “만약 세계 어딘가의 연구진이 어떤 데이터를 연구해 새로운 계통을 식별했다고 생각한다면 명명에 대한 요청을 해올 수 있다”고 오툴은 설명한다.

테이터는 계속해서 쇄도하고 있다. 지난 봄, 팽고팀은 ‘팽고톤(pangothon)’을 개최했다. 이는 일종의 해커톤(hackathon)*으로, 당시 800,000개의 염기서열을 약 1,200개의 계통으로 분류했다.

*‘해킹(hacking)과 마라톤(marathon)의 합성어로, 기획자 및 개발자 등이 팀을 이뤄 한정된 기간 내에 프로그래밍 등을 통해 결과물을 만들어내는 대회.’

오툴은 “우리는 팽고톤에 3일을 할애하기로 했지만, 결국 2주가 걸렸다”고 말한다.

그 후 팽고팀은 UCSC 연구원 힌릭스와 예일대 연구원 브리토와 같은 지원자들을 몇 명 더 모집했다. 둘 다 처음에 트위터와 깃허브 페이지에 자신의 견해를 밝히면서 팽고팀에 참여하게 되었다. 케임브리지대학 박사후 연구원 크리스 루이스(Chris Ruis)는 오툴이 깃허브의 밀린 요청 사항을 정리하는 일을 돕기로 했다.

오툴은 최근 이들에게 새로 신설된 ‘팽고 네트워크 계통 지정 위원회(Pango Network Lineage Designation Committee)’의 일원으로, 이 연구 조직에 공식 합류해줄 것을 요청했다. 이 위원회에서는 변이 명칭에 대해 논의하고 결정한다. 연구소장 램보트가 속해 있는 또 다른 위원회는 보다 높은 수준의 결정을 내린다.

오툴은 “우리에겐 웹사이트와 이메일이 있다. 내 개인 이메일이 아니다”라며 “팽고팀은 훨씬 더 공식화되었고 이는 확장에 정말로 도움이 될 것이라고 생각한다”고 말한다.

미래

데이터가 증가하면서 주변부에서 몇몇 균열이 보이기 시작했다. 현재 GISAID에는 약 250만 개의 코로나19 유전체 염기서열이 올라와 있고, 이를 팽고팀은 1,300개의 가지(branche)로 나누었다. 각 가지는 변이에 해당한다. WHO에 따르면, 이 중 8개는 지켜봐야 할 변이다.

처리해야 할 일이 너무 많아지면서 소프트웨어 작동이 원활하지 않게 되었다. 유전체를 잘못 명명하고 있다. 많은 종이 유사해 보이고, 이는 코로나19 바이러스가 가장 유리한 돌연변이들(mutations)을 되풀이하면서 진화하기 때문이다.

연구팀은 임시방편으로 다른 분류 방식을 사용하고 팽고가 놓칠 수 있는 것들을 포착할 수 있는 새로운 소프트웨어를 개발했다.

하지만 그 어떤 시스템도 바이러스 진화에 대한 방대한 데이터를 처리해본 적이 없다는 사실을 기억하는 것이 중요하다. 역사상 코로나19가 가장 많이 관찰된 바이러스가 되었다. 또한  국가 간 이동에 따라 바이러스가 어떻게 변화하는지를 정확히 볼 수 있었던 것도 이번이 처음이다.

졸리는 “이 모든 것이 가능했던 이유는 데이터를 공유하고 도구를 공유했기 때문”이라고 말한다.

과학자들은 서로 의사소통하는 법을 발견하면서도 대중과 의사소통하는 법도 익혀야 했다. 언론이 고도로 기술적인 명칭들을 사용하는 것을 지켜보면서 오툴은 ‘약간 초현실적이었다’고 말한다.

“우리는 이 명명법을 일년 내내 사용해왔고 과학계에서는 이 명명법이 정말로 유용하지만, B.1.1.7 같은 명칭이 BBC 뉴스에 나오도록 고안된 것은 확실히 아니었다”고 오툴은 말한다. “이런 대중의 검토를 받은 것은 훌륭한 학습 경험이었다”고 오툴은 덧붙인다.

막후에서 팽고팀은 계속해서, 전 세계 과학자들이 이 팬데믹을 막기 위해 협력할 수 있도록 코로나19의 진화를 추적하고 있다.

브리토는 다음과 같이 말한다. “언론에서 내내 델타 변이, 알파 변이에 대해 보도하고 있다. CNN 브라질은 염기서열을 분석한 게놈에 대해 보도하면서 ‘이 계통은 새 변이로 지정될 것이고 며칠 내로 보고서가 나올 것이다’라고 말한다. 이건 2년 전만 해도 상상할 수 없는 일이었다.”

이 기사는 록펠러 재단이 지원하는 팬데믹 기술 프로젝트(Pandemic Technology Project)의 일환으로 작성되었다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.