DeepMind says it will release the structure of every protein known to science

딥마인드(DeepMind), 과학계에 알려진 모든 단백질을 해부하다

딥마인드는 이미 자사의 AI 알파폴드(AlphaFold)를 이용해 인간 단백체(proteome) 구조뿐만 아니라 효모, 초파리, 쥐 등의 단백체 구조까지 예측하고 있다.

지난 2020년 12월, 영국의 인공지능(AI) 기업 딥마인드(DeepMind)는 단백질 구조를 예측하는 자사의 AI 프로그램 알파폴드(AlphaFold)를 통해 지난 50년간 풀리지 않던 난제를 해결하면서 생물학계를 깜짝 놀라게 했다. 지난주에는 알파폴드에 대한 자세한 정보를 발표하며 소스 코드(source code)까지 공개했다.

최근 딥마인드는 자사의 AI 기술을 이용하여 인체에 존재하는 거의 모든 단백질의 형태를 예측했다고 발표했다. 또한 효모, 초파리, 쥐 등 가장 널리 연구되고 있는 생물 20종에서 발견되는 수십만 개의 단백질 형태까지도 예측했다고 발표했다. 딥마인드의 이러한 놀라운 발견은 전 세계 생물학자들이 질병을 이해하고 신약을 개발하는 데 큰 도움이 될 수 있다.

현재까지 딥마인드가 알파폴드를 통해 새로 예측한 단백질 구조는 35만 개에 이른다. 딥마인드 측은 앞으로 몇 달 후에는 1억 개 이상의 단백질 구조를 예측하여 공개할 것이라고 발표했는데, 이는 과학계에 알려진 거의 모든 단백질의 구조를 예측할 수 있다는 의미이다.

딥마인드의 공동 설립자이자 CEO인 데미스 허사비스(Demis Hassabis)는 “단백질 접힘(protein folding)은 내가 20년 이상 관심을 가져온 문제다”라고 밝히며, “단백질 구조 예측은 우리에게도 거대한 프로젝트였다. 나는 이번 프로젝트가 지금까지 우리가 해낸 가장 대단한 일이라고 말하고 싶다. 게다가 어떤 면에서는 가장 흥미진진한 프로젝트이기도 하다. AI 업계를 뛰어 넘어 전 세계에 커다란 영향을 미칠 것이기 때문이다”라고 말한다.

단백질은 복잡한 매듭을 만들며 서로 얽혀 있는 긴 리본 형태의 아미노산으로 구성되어 있다. 따라서 단백질을 이루는 아미노산 매듭의 형태를 파악하면 단백질이 어떤 작용을 하는지 밝힐 수 있다. 단백질의 작용을 이해하는 것은 매우 중요하다. 이를 통해 질병의 원리를 이해하고 신약을 개발할 수도 있으며, 오염이나 기후변화에 대응할 수 있는 생물체를 파악할 수도 있기 때문이다. 그러나 실험실에서 어떤 단백질 하나의 형태를 파악하려면 몇 주 또는 몇 달이 소요된다. 알파폴드를 사용하면 원자 수준의 단백질 구조를 예측하는 데에도 하루나 이틀밖에 걸리지 않는다.

알파폴드가 구축한 새로운 데이터베이스는 생물학자들의 연구를 더 용이하게 할 전망이다. 연구자들은 알파폴드를 사용할 수 있지만, 프로그램을 직접 실행하는 방식으로 사용할 필요는 없다. 워싱턴대학교 단백질 디자인 연구소(Institute for Protein Design)의 데이비드 베이커(David Baker)는 “프로그램을 자신의 컴퓨터에서 구동하는 것보다 공개된 데이터베이스에서 단백질 구조를 가져오는 쪽이 훨씬 편하다”라고 말한다. 그의 연구소도 알파폴드의 방식을 기반으로 단백질 구조를 예측하는 자체 프로그램, 로제타폴드(RoseTTAFold)를 개발했다.

지난 몇 달 동안 베이커의 연구팀은 연구를 진행하다가 단백질 형태를 파악하는 과정에서 막다른 골목에 다다른 생물학자들과 협업했다. 베이커는 “공동 작업을 통해 상당한 진척을 이루어 낸 훌륭한 생물학 연구가 상당히 많다”고 말한다. 누구나 이용할 수 있는 수십만 개의 단백질 구조가 포함된 데이터베이스 덕분에 각종 연구의 진행 속도가 더 빨라질 것이다.

임페리얼 칼리지 런던에서 효모의 게놈(genome)을 연구하고 있는 합성생물학자 톰 엘리스(Tom Ellis)는 공개된 데이터베이스를 이용할 수 있다는 것에 흥분하며, “놀라울 정도로 감동적이다”라고 말한다. 그러나 그는 데이터베이스에 저장된 단백질 구조 대부분이 아직 실험실에서 검증받지 못했다는 점을 유의해야 한다고 말한다.

원자 수준의 정확성

이번에 발표된 알파폴드의 새 버전에서는 AI의 예측 결과와 신뢰도 점수가 함께 표시되는데, 신뢰도 점수는 AI가 예측한 단백질 구조가 실제 구조와 얼마나 일치하는지 보여준다. 이러한 방식을 이용하여 딥마인드는 알파폴드가 인간 단백질의 36% 정도와 개별 원자 수준까지 정확히 일치하는 단백질 구조를 예측했음을 발견했다. 허사비스는 이 정도면 신약 개발에 충분히 도움이 될 수 있는 정도라고 말한다.

알파폴드 개발 이전에는 수십 년에 걸쳐 연구가 이루어졌음에도 실험실에서 구조를 파악한 인체 내 단백질은 17%에 불과했다. 만약 알파폴드의 예측 결과가 딥마인드의 주장만큼 정확하다면, 알파폴드는 실험실에서 수십 년 동안 파악한 17%를 불과 몇 주 만에 두 배 이상 늘린 것이다.

게다가 원자 수준까지 정확하지 않은 예측 결과라고 해도 유용하게 활용될 수 있다. 인체를 이루는 단백질의 절반 이상에 대해서 알파포드는 연구자들이 단백질의 기능을 파악하기에 충분할 정도의 단백질 구조를 예측했다. 현재 알파폴드가 예측한 단백질 구조 중 나머지는 부정확한 예측이거나, 다른 것과 결합하기 전에는 특별한 구조를 갖지 않는 인체 내의 단백질에 대한 것이다. 허사비스는 “그런 단백질들은 정해진 형태 없이 늘어져 있다”고 말한다.

컬럼비아대학교에서 단백질 구조를 예측하는 자체 프로그램을 개발해온 시스템 생물학자 모하메드 알쿠라이시(Mohammed AlQuraish)는 “단백질 구조 예측 기술이 이 정도 수준까지 발전할 수 있다는 사실이 정말 놀랍다”라고 말한다. 그는 어떤 생물체를 구성하는 거의 모든 단백질의 구조를 파악하게 되면 이러한 단백질들의 개별적인 작용이 아니라 단백질들이 하나의 시스템으로서 함께 작용하는 방식까지 연구할 수 있을 것이라고 지적하며, “그것이 내가 가장 흥미롭다고 생각하는 부분이다”라고 덧붙인다.

딥마인드는 알파포드 프로그램과 알파포드가 예측한 단백질 구조들을 무료로 공개할 것이며, 미래에 이를 유료화할 계획이 있는지에 대해서는 밝히지 않을 것이다. 그러나 유료화의 가능성도 배제할 수 없다. 데이터베이스를 구축하고 운영하기 위해 딥마인드는 이미 단백질 정보와 관련한 거대 데이터베이스를 운영하는 국제 연구기관인 유럽 분자생물학연구소(European Molecular Biology Laboratory)와 협력하고 있다.

현재 상황에서 알쿠라이시는 새로운 데이터로 연구자들이 어떤 연구를 진행할지 기대하고 있다. 그는 “너무나 멋지다. 그 누구도 우리가 여기까지 이렇게 빨리 도달할 것이라고 예상하지 못했을 것이다. 정말 놀라운 성과다”라고 말한다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.