AIs that read sentences are now catching coronavirus mutations

말 잘하는 인공지능이 코로나 변이도 잡는다

자연어처리(NLP) 알고리즘이 바이러스의 유전적 변화 해석에도 쓰일 전망이다. 이에 따라 코로나 변이 예측을 위한 연구가 가속화되고 있다.

갈릴레오는 자연이 수학으로 쓰여 있다고 했다. 생물학은 언어로 쓰여 있을 지 모른다. 자연어처리(NLP) 알고리즘은 이제 단백질 서열을 생성하고 바이러스 변이를 예측할 수 있다. 여기에는 코로나 바이러스가 면역 체계를 회피할 수 있게 하는 변이도 포함된다.

이것이 가능한 이유는 생물학적 시스템의 상당수 속성이 단어와 문장으로 해석될 수 있기 때문이다. MIT 컴퓨터 생물학자 보니 버거(Bonnie Berger)는 “우리는 진화의 언어(language of evolution)를 배우는 중”이라고 말한다.

지난 몇 년 동안, 유전학자 조지 처치(George Church) 연구실과 세일즈포스 등 몇몇 연구자들은 NLP 기술로 단백질 서열과 유전자 코드를 모델링할 수 있음을 입증하였다.

최근 사이언스(Science)에 발표된 연구에 따르면, 버거 교수팀은 NLP를 활용해 바이러스가 면역 시스템을 회피하기 위해 일으키는 변이를 예측한다. 인체 면역 시스템의 항체는 바이러스를 감지해 이들의 침투를 막고, 바이러스는 면역 회피(Viral Immune Escape)라는 과정을 통해 이 과정을 피해 간다. 면역 체계가 바이러스의 정보를 번역하는 과정은 마치 사람이 문장을 해석하는 과정과 비슷하다.

세일즈포스에서 NLP로 단백질 서열을 예측하는 연구를 하는 알리 마다니(Ali Madani)는 “기존 연구를 기반으로 새로운 활력을 불어넣는 멋진 논문”이라고 평가했다.

버거 교수팀은 문법과 의미론이라는 두 가지 언어학 개념을 사용한다. 숙주를 감염시키는 능력과 같은 바이러스의 유전적 또는 진화적 적합성은 문법적 정확성 측면에서 해석될 수 있다. 전염성이 좋은 성공적 바이러스는 문법적으로 옳지만, 성공하지 못한 바이러스는 옳지 않다.

마찬가지로, 바이러스 변이는 의미론적 측면에서 해석 가능하다. 특정 항체에게는 감지되지 않도록 하는 표면 단백질(Surface Protein)의 변이와 같이, 바이러스가 주변 환경 안에서 다른 존재로 보이도록 하는 변이는 의미의 변화라 볼 수 있다. 다르게 변이한 바이러스는 다른 의미를 가지며, 의미가 다른 바이러스를 감지하려면 다른 항체가 필요할 수 있다.

이러한 속성을 모델링하기 위해 연구진은 ‘장단기 기억(LSTM, Long Short-Term Memory)’을 활용했다. LSTM은 GPT-3 등 대형 언어 모델이 사용하는 트랜스포머 기반 모델보다 앞서 등장한 신경망이다. 이러한 구형 네트워크는 트랜스포머보다 훨씬 적은 데이터로 훈련 가능하며, 많은 분야에서 여전히 우수한 성능을 발휘한다.

바이러스 읽기

연구진은 수백만 개의 문장 대신 3가지 바이러스에서 추출한 수천 개의 유전자 서열로 NLP 모델을 훈련시켰다. 독감에서 4만 5000개, HIV에서 6만개, 코로나19를 유발하는 사스코로나바이러스-2(Sars-Cov-2)에서 각각 3000~4000개의 고유 서열을 추출했다. 이 모델을 개발한 MIT 대학원생 브라이언 히에(Brian Hie)는 “코로나 바이러스는 아직 연구가 적어 관련 데이터가 많지 않다”고 설명했다

NLP 모델은 의미가 다른 단어보다 의미가 비슷한 단어끼리 서로 가깝게 배치하는 방식으로 단어들을 수학적 공간에 인코딩한다. 이것을 임베딩(embedding)이라고 한다. 바이러스의 경우, 유전자 서열 임베딩은 변이가 얼마나 유사한지 따져 바이러스를 분류했다.

연구의 전반적인 목표는 전염력을 낮추지 않고 면역 시스템을 회피하는 변이를 식별하는 것이다. 즉 문법적 오류 없이 바이러스의 의미를 바꾸는 변이이다.

언어를 예로 들어보자. “와인 농장주들이 좋은 계절을 즐긴다”라는 문장에서 한 단어만 바꾸면 “와인 농장주들이 강한 계절을 즐긴다” 또는 “와인 농장주들이 독감 계절을 즐긴다”는 문장이 된다. 두 문장은 문법 구조가 같지만, 한 문장이 다른 문장보다 의미가 더 많이 바뀌었다. 연구진은 바이러스의 유사한 변이를 찾고, 의미가 가장 많이 바뀐 변이를 골라내는 도구를 만들었다.

이 같은 접근 방식을 검증하기 위해, 연구팀은 머신러닝 모델의 예측 능력을 평가하는데 쓰이는 공통 기준을 사용하였다. 이 기준은 머신러닝 모델의 정확성을 0.5(우연이나 다름없음)와 1(완벽) 사이의 수치로 평가한다. 연구팀은 예측 도구가 가장 가능성이 높다고 판단한 변이들을 선택했다. 이어 연구실에 있는 실제 바이러스와 비교하여, 예측한 변이들 중 실제 회피 변이(Escape Mutation)가 얼마나 되는지 확인했다. 연구 결과 HIV는 0.69, 코로나 바이러스는 0.85을 기록했다. 이는 다른 현존 최고 수준 모델보다 좋은 결과라고 연구팀은 밝혔다.

미래 예측하기

어떤 변이가 발생할지 미리 예측할 수 있다면 병원과 보건 당국이 사전에 더 효과적으로 계획을 수립할 수 있다. 예를 들어, 모델에게 작년 이후 독감 바이러스의 의미가 얼마나 많이 바뀌었는지 물어보면, 사람 몸 안의 항체가 올해 얼마나 효과가 좋을지 알 수 있다.

현재로선 이 연구는 공중 보건에 실질적 영향을 미치기 보다는 새로운 분야를 개척한다는 점에 더 중점을 두고 있다. 사이언스에 발표된 연구를 수행한 후, 연구팀은 소위 영국발 변이와 덴마크에서 일어난 밍크 변이, 남아프리카공화국, 싱가폴, 말레이시아 변종 등 코로나 바이러스 신종 변이에 대하여 모델을 돌리고 있다.

아직 야생에서 테스트하지 않았지만, 연구팀은 이 모든 변종 바이러스에서 면역 회피가 발생했을 가능성이 높다는 사실을 발견했다. 그러나 이 모델은 남아프리카 공화국에서 발생한 다른 변이는 감지하지 못했다. 남아공발 변종 바이러스에는 백신 효과가 없을 수 있다는 점에서 우려가 제기됐다. 연구팀은 이유를 찾고 있다. 버거 교수는 “여러 가지 변이가 발생해서, 복합 효과가 나타난 것으로 보인다”라고 밝혔다.

NLP를 사용하면 변이 예측의 속도를 높일 수 있다. 이전에는 입원한 코로나 환자에서 바이러스를 채취해 게놈의 염기서열을 분석했고, 변이는 연구실에서 재현되고 연구되었다. 이 프로젝트를 수행 중인 MIT 생물학자 브라이언 브라이슨(Bryan Bryson)은 이 작업에 몇 주가 소요된다고 말했다. NLP 모델은 잠재적 변이를 곧바로 예측하기 때문에 연구진은 연구에 몰입하고 속도를 높일 수 있다.

브라이슨은 “이 연구를 하게 되어 정말 짜릿하다”고 말했다. 매주 신종 바이러스 서열이 출현하고 있다. 브라이슨은 “모델을 업데이트하고 바로 연구실로 달려가 이를 검증하고 있다. 이것이 바로 전산생물학의 묘미이다”라고 말했다.

하지만 아직까지는 시작에 불과하다. 유전자 변이를 의미의 변화로 간주하는 것은 생물학 전반에 다른 방식으로 적용될 수 있다. 브라이슨은 “좋은 비유는 장기적 결과를 낳을 수 있다”고 말했다.

예를 들어, 히에는 연구팀의 접근 방식이 약물 내성 연구에 적용될 수 있다고 생각한다. 그는 “화학요법에 내성이 생기는 암 단백질이나 항생제에 내성이 생기는 박테리아 단백질을 생각해 보자”고 한다. 이러한 변이 역시 의미 변화로 간주할 수 있다. 그는 “언어 모델을 적용할 수 있는 창의적 방법이 많이 있다”고 말했다.

알리 마다니는 “생물학은 혁명의 변곡점에 있다고 생각한다”며 “단순히 데이터만 많이 수집했던 단계에서 이를 깊이 이해하는 단계로 나아가는 중이다”라고 말했다.

연구자들은 NLP의 발전을 주시하며, 언어와 생물학의 새로운 유사점을 발견하여 활용할 방법을 찾고 있다. 브라이슨과 버거, 히에는 두 분야의 융합이 양방향으로 이뤄져야 한다고 믿는다. 생물학 개념에서 영감을 얻은 새로운 NLP 알고리즘의 등장이 그러한 예가 될 것이다. 버거 교수는 “생물학 역시 고유의 언어를 갖고 있다”고 말한다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.