DeepMind’s protein-folding AI has solved a 50-year-old grand challenge of biology

딥마인드 AI가 단백질의 구조를 밝히다

알파폴드(AlphaFold)는 원자 폭 이내의 정확도로 단백질의 모양을 예측할 수 있다. 이 획기적 발전은 과학자들이 약물을 설계하고 질병을 이해하는 데 기여할 것이다.

딥마인드의 인공지능(AI)은 이미 인간을 상대로 여러 번 빛나는 승리의 기록을 세웠다. 바둑에서 스타크래프트, 아타리의 고전 게임 전체에 이르기까지 딥마인드의 AI는 복잡한 게임을 초인적 기술로 플레이하는 법을 과시해 왔다. 하지만 딥마인드의 창업자 데미스 하사비스(Demis Hassabis)는 이 같은 시도는 ‘세상을 더 잘 이해하도록 돕는 AI’라는 더 큰 목표를 향한 디딤돌일 뿐이라고 항상 강조했다.

딥마인드와 ‘단백질 구조 예측(CASP, Critical Assessment of protein Structure Prediction)’ 대회 주최측은 단백질의 구조를 원자 너비 정도의 정확도로 예측할 수 있는 딥마인드의 딥러닝 시스템 알파폴드(AlphaFold) 최신 버전이 생물학의 최대 난제 중 하나를 돌파했다고 발표했다. 이것은 하사비스가 추구해 온 ‘큰 영향을 끼치는 AI’가 될 것으로 기대된다. CASP 조직위원장인 존 물트(John Moult) 메릴랜드대학(University of Maryland) 대학 교수는 “이것은 중대한 과제의 해결에 AI를 활용한 첫 사례”라고 말했다.

단백질은 복잡하게 꼬이고 뒤틀리고 얽히며 스스로 접히는 아미노산 리본으로 만들어진다. 이 구조는 단백질이 하는 일을 결정한다. 단백질이 하는 일을 파악하는 것은 생명의 기본 메커니즘 이해에 중요하다. 코로나19 백신 개발 노력은 바이러스 표면의 뾰족한 스파이크 모양 단백질에 초점을 맞추고 있다. 코로나 바이러스가 인간 세포에 침투하는 방식은 이 스파이크 단백질의 모양과 인체 세포 표면의 단백질의 모양에 따라 결정된다. 스파이크는 모든 생명체에 걸쳐 존재하는 수십억 개의 단백질 중 하나에 불과하다. 인체 내부에만 수만 종류의 단백질이 있다.

올해 CASP에서 알파폴드는 수십 개의 단백질 구조를 1.6 옹스트롬(angstrom)의 오차범위 안에서 예측했다. 1.6옹스트롬은 0.16나노미터로, 원자 하나의 크기이다. 이는 다른 모든 컴퓨터 기반 예측 기법들을 뛰어넘는 결과이다. 그리고 연구실에서 쓰이는 저온전자현미경(cryo-electron) 현미경, 핵자기공명영상(NMR, nuclear magnetic resonance)엑스선 결정학(x-ray crystallography)과 같은 기술에 맞먹는 정확성을 처음으로 보여주었다. 이 기술들은 비싸고 느리다. 각 단백질의 구조를 밝히는데 수십만 달러의 비용과 수년간의 시행착오가 있을 수 있다. 그러나 알파폴드는 며칠 만에 단백질의 모양을 찾아낼 수 있다.

이러한 획기적 혁신은 신약을 설계하고 질병을 이해하는 데 도움이 될 수 있다. 장기적으로 보면, 단백질 구조 예측은 폐기물을 소화하거나 바이오 연료를 생산하는 효소와 같은 합성 단백질을 설계하는데도 기여할 것이다. 작물 수확을 늘리고 식물의 영양소를 풍부하게 만드는 합성 단백질 개발 연구도 이뤄지고 있다.

컬럼비아대학(Columbia Univeristy) 시스템생물학과 교수로 단백질 구조 예측 소프트웨어를 개발하기도 한 모하메드 알쿠라시는 “이것은 매우 중대한 진전“이라며 “이런 진전이 이렇게 빨리 일어날 줄은 예상하지 못했다. 충격적이다”라고 말했다. 워싱턴대학(University of Washington) 단백질디자인연구소(Institute for Protein Design) 소장이자 단백질 분석 도구인 로제타(Rosetta) 개발 팀의 리더인 데이빗 베이커(David Baker)는 “이것은 딥마인드 팀들이 바둑에 대해 했던 것과 같은 놀라운 성과”라고 말했다.

천문학적 숫자들

단백질 구조를 파악하기란 매우 어렵다. 대부분의 단백질의 경우, 연구자들은 아미노산 서열(sequence)은 알지만, 그들이 접혀 있는 모양은 알지 못 한다. 통상적으로 각 서열이 만들어낼 수 있는 모양의 가지 수는 천문학적이다. 적어도 크리스티안 안핀센(Chrisian Anfinsen)이 서열이 단백질 구조를 결정한다는 것을 입증한 공로로 노벨상을 받은 1970년대 이후부터 과학자들은 이 문제와 씨름해 왔다.

1994년 CASP 출범은 이 분야에 활력을 불어넣었다. 대회 주최측은 2년에 한번씩 연구실에서 형태가 확인되었지만 아직 공개되지는 않은 단백질에 대한 100여개의 아미노산 서열을 공개했다. 세계 각지의 수십 개 팀들이 소프트웨어를 사용하여 아미노산 서열들을 똑바로 접는 방법을 찾는 경쟁을 벌였다. CASP 참가를 위해 개발된 많은 도구들이 이미 의료 분야 연구자들에 의해 쓰이고 있다. 그러나 진척은 느렸다. 20년 동안 점진적 발전만 있었고, 단백질 구조를 밝히는 험난한 작업을 획기적으로 단축할 방법은 찾지 못 했다.

2018년 처음 출전한 알파폴드 첫 번째 버전은 CASP가 필요로 하던 자극을 주었다. 여전히 연구실에서 연구원이 수행하는 것만큼 정확하지는 않았지만, 다른 컴퓨터 기법은 가볍게 앞섰다. 곧 많은 연구자들이 자신의 시스템을 알파폴드와 비슷한 방식으로 수정할 것으로 예상된다.

물트는 올해 참가자의 절반 이상이 어떤 형태로든 딥 러닝을 활용한다고 말했다. 그 결과 전체적으로 정확도가 더 높아졌다. 베이커의 새 시스템 trRosetta는 2018년부터 딥마인드의 아이디어들 중 일부를 사용했다. 그러나 “여전히 매우 거리가 먼 2등을 차지했을 뿐”이라고 베이커는 말했다.

CASP는 거리테스트(GDT, Global Distance Test)를 사용하여 결과를 채점한다. GDT는 예측한 구조가 연구실에서 확인된 단백질의 실제 모양에 얼마나 가까운지를 0에서 100까지의 척도로 측정한다. 알파폴드 최신 버전은 출제된 모든 단백질에 대해 좋은 점수를 받았다. 그 중 약 3분의 2에 대해서는 GDT 점수가 90점을 넘었다. 딥마인드에서 알파폴드 팀을 이끄는 존 점퍼(John Jumper)는 가장 어려운 단백질에 대한 GDT 점수가 2위 팀보다 25점 높았다고 말했다. 2018년에는 1위와 2위 점수 차이가 6점 안팎이었다.

90점 이상의 점수는 예측한 구조와 실제 구조의 차이가 소프트웨어의 결함이 아니라 연구실에서의 실험 오류로 인한 것일 가능성이 더 큼을 의미한다. 또 예측된 구조가 실험실에서 확인된 구조에 대한 유효한 대안 구조가 될 수 있고, 자연 변이 범위 내에 있음을 뜻한다.

점퍼에 따르면, 대회에 출제된 단백질 중 심사위원들이 연구실에서 구조 확인 작업을 끝내지 못한 단백질이 4개 있었으며, 알파폴드가 예측한 결과물은 후에 확인된 실제 구조를 거의 정확하게 보여주었다.

알쿠라시는 2018년 알파폴드의 성과에서 올해 수준의 성과로 발전하기까지 10년은 걸릴 것으로 생각했다. 그는 “이는 물리적으로 가능한 정확도의 한계에 거의 도달한 수준”이라며 “단백질 구조는 본질적으로 느슨하고 산만하다. 이 수준 이하의 더 자세한 구조를 볼 수 있는 해상도를 논하는 것은 넌센스다”라고 말했다.

퍼즐 조각

알파폴드는 세계 수백 명의 연구자들의 연구를 바탕으로 하고 있다. 딥마인드 역시 다양한 분야의 전문가들에 의지하고 있다. 이 연구를 위해 생물학자와 물리학자, 컴퓨터과학자 등이 팀을 이루었다. 알파폴드의 자세한 원리는 CASP 컨퍼런스와 동료 평가를 거쳐 내년 발간되는 ‘프로틴(Protein)’ 저널 특별호에 실릴 논문에서 공개될 것이다. 우리는 인공지능이 큰 문제의 특정 일부분에 집중해 훈련하는 딥 러닝 기법인 어텐션(attention) 네트워크의 한 방식을 사용한다는 것을 알고 있다. 점퍼는 이를 퍼즐 맞추기에 비유한다. 전체 그림을 맞추기 전에 일단 한 구석의 큰 덩어리를 먼저 맞추는 것이다.

딥마인드는 단백질 서열과 구조의 공공 저장소인 단백질데이터은행이 보유한 17만 개의 단백질 정보로 알파폴드를 훈련시켰다. 알파폴드는 데이터은행에 보관된 여러 서열들을 비교하고 접힘 구조가 비슷한 아미노산 쌍들을 찾았다. 그런 다음 아직 알려지지 않은 구조에서 아미노산 쌍 사이의 거리를 추측하는데 이 데이터를 사용한다. 이러한 추측이 얼마나 정확한지도 평가할 수 있다. 훈련에는 ‘몇 주’가 소요되었으며, 100-200개 사이의 GPU에 해당하는 컴퓨팅 능력을 사용했다.

영국 케임브리지에 있는 유럽생물정보학연구소(European Bioinformatics Institute)의 데임 자넷 손튼(Dame Janet Thornton)은 50년 동안 단백질을 연구해왔다. 그는 최근 기자회견에서 “단백질 구조 문제는 줄곧 해결되지 않고 학계에 남은 문제”라며 “내 생전에 이 문제가 풀리지는 않을 것이란 생각이 들기 시작하던 참이었다”고 말했다.

많은 신약은 3D 분자 구조를 시뮬레이션하고 이러한 분자를 표적 단백질에 삽입하는 방법을 찾는방식으로 설계된다. 물론, 이것은 단백질의 구조가 알려진 경우에만 쓸 수 있다. 대략 2만 개의 인간 단백질 중 구조가 알려진 것은 4분의 1에 불과하다고 손튼은 말했다. 신약 개발의 표적으로 쓸 수 있는 단백질 1만 5,000개가 아직 남아 있는 셈이다. 손튼은 “알파폴드는 새로운 연구 분야를 열 것”이라고 말했다.

딥마인드는 기생충에 의해 야기되는 열대성 질병인 리슈마니아증, 수면병, 말라리아를 연구할 계획이다. 이들 질병의 치료법 개발은 알려지지 않은 많은 단백질 구조의 규명과 밀접하게 연결되어 있기 때문이다.

알파폴드의 단점은 경쟁 기술에 비해 느리다는 것이다. 순환기하학네트워크(RGN, recurrent geometrical network)라는 알고리즘을 사용하는 알쿠라시의 시스템은 단백질 구조를 백만 배 빨리 찾을 수 있다. 몇 일이 아니라 몇 초 안에 결과를 보여준다. 예측의 정확도는 떨어지지만, 때로 속도가 더 중요한 경우도 있는 법이다.

연구자들은 알파폴드의 정확한 작동 원리가 공개되기를 기다리고 있다. 베이커는 “딥마인드가 알파폴드의 작동 방식을 공개하면 지금은 상상도 못할 수없이 다양한 분야에 사람들이 이를 적용할 것”이라고 기대했다.

알쿠라시는 “정확도가 떨어지는 결과라도 효소나 박테리아를 연구하는 사람들에게는 희소식이 되었을 수 있다”라며 “그러나 제약 분야에 즉시 적용할 수 있다는 점이 가장 주목된다”라고 말했다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.