Biotech labs are using AI inspired by DALL-E to invent new drugs

신약 개발을 돕는 단백질 구조 설계용 AI

두 연구팀이 자연에서 발견되지 않았던 새로운 단백질을 설계하는 ‘생성모델’을 발표했다. 단백질 구조 설계용 AI는 이미지 생성도구 DALL-E 2에서 영감을 받았다

텍스트를 입력하면 이미지를 생성하도록 학습한 오픈AI의 DALL-E 2 등 이미지 생성용 AI 모델들이 폭발적으로 증가했다. 생성형 AI 모델들은 사용자가 입력하는 텍스트에 따라 이상하거나 멋진 이미지들을 만든다. 그 결과 패션부터 영화 콘텐츠의 제작까지 다양한 ‘창조산업(creative industry)’에 상당한 영향을 미치고 있다.

이러한 AI 모델에 사용되는 기술은 이제 바이오테크 연구소에서도 큰 인기를 끌고 있다. 바이오테크 연구소들은 확산모델(diffusion model)이라고도 알려진 이러한 생성모델(generative AI)을 사용해서 자연에서 발견한 적 없는 새로운 유형의 단백질을 설계하는 데 사용하기 시작했다.

12월 1일에는 두 연구소에서 확산모델을 사용하여 이전보다 훨씬 정확하게 새로운 단백질을 설계하는 프로그램을 각각 발표했다. 먼저 보스턴에 본사를 둔 바이오테크 스타트업 ‘제너레이트 바이오메디슨(Generate Biomedicines)’은 크로마(Chroma)라는 프로그램을 공개했다. 연구진들은 이 프로그램을 “생물학계의 DALL-E 2”라고 설명했다.

또한 워싱턴대학(UW)의 생화학자 데이비드 베이커(David Baker)가 이끄는 연구진도 ‘로제타폴드 디퓨젼(RoseTTAFold Diffusion)이라는 프로그램을 제작했다. 로제타폴드 디퓨젼은 단백질 구조의 설계를 위한 확산 모델로서 그 기능은 크로마와 비슷하다. 12월 1일 온라인에 공개된 논문에서 베이커와 연구진들은 로제타폴드 디퓨젼을 이용하면 실험실에서 새로운 단백질을 정확하게 설계할 수 있다고 밝혔다. 로제타폴드 디퓨젼 개발에 참여했던 브라이언 트리페(Brian Trippe)는 “우리는 기존 단백질과 유사점이 전혀 없는 완전히 새로운 단백질을 생성하고 있다”고 설명했다.

이 단백질 생성기는 모양이나 크기, 기능 등 일정한 특성을 가진 단백질의 제작에 사용될 수 있다. 이 프로그램을 이용하면 특정한 기능을 하는 새로운 단백질을 필요할 때마다 만들 수 있다. 연구원들은 새로운 단백질 설계용 프로그램이 더 효과적인 신약 개발의 결과로 이어지기를 기대한다. 제너레이트 바이오메디슨의 최고기술책임자(CTO) 게보르그 그리고리안(Gevorg Grigoryan)은 “우리는 인류의 진화 과정에서는 수백 년이 걸렸을 변화 과정을 불과 몇 분 이내에 발견할 수 있다”고 말했다.

매사추세츠 케임브리지에 위치한 마이크로소프트 리서치(Microsoft Research)의 생물물리학자 아바 아미니(Ava Amini)는 “이 연구에서 주목할 점은 연구진이 원하는 제약(constraints)을 설정하고 그에 따라 단백질을 생성할 수 있는 기능”이라고 말했다.

크로마가 생성한 대칭 단백질 구조
GENERATE BIOMEDICINES

단백질은 생물체의 기본 구성요소이다. 동물의 몸 안에서 단백질은 다양한 작용을 한다. 음식을 소화시키고 근육을 수축시키며 빛을 감지하고 면역체계를 작동시키는 등의 다양한 일들을 수행한다. 사람이 아플 때도 단백질이 역할을 한다.

이런 배경에서 단백질은 신약 개발 과정에서 주요한 타깃으로 여겨진다. 오늘날 많은 최신 약물들은 단백질을 기반으로 한다. 그리고리안은 “자연에서는 단백질이 기본적으로 모든 곳에서 사용된다”며 “따라서 질병 치료와 관련하여 단백질의 가능성은 무궁무진하다”고 말했다.

그러나 신약 설계자들은 현존하는 천연 단백질로 구성된 성분 목록에 의존한다. 단백질 생성의 목표는 거의 무한대로 컴퓨터가 설계한 단백질 목록을 확장하여 신약 연구에 활용하는 것이다. 컴퓨터를 이용한 단백질 설계는 새로운 기술이 아니다. 그러나 종래의 방식은 그 속도가 매우 느렸고, 여러가지 단백질들이 결합되어 만들어지는 단백질 복합체 등을 제대로 설계하지 못했다. 그러나 단백질 복합체 같은 단백질이야말로 질병 치료에 중요하게 작용하는 경우가 많다.

로제타폴드 디퓨전이 생성한 단백질 구조(왼쪽)와 실험실에서 생성한 동일한 단백질 구조(오른쪽)
IAN C HAYDON / UW INSTITUTE FOR PROTEIN DESIGN

이번에 발표된 크로마와 로제타폴드 디퓨전 프로그램이 단백질 생성에 확산모델을 활용한 최초의 프로그램은 아니다. 아미니와 다른 연구원들이 지난 몇 달 동안 진행한 연구도 확산모델이 단백질 설계에 유용하게 사용될 수 있음을 증명하기 위한 용도였다. 종래 연구들은 주로 가능성을 검증하기 위한 개념증명(PoC)을 위한 것이었다. 이번에 개발된 크로마와 로제타폴드 디퓨젼은 광범위한 단백질 설계를 정확하게 수행할 수 있는 최초의 본격적인 프로그램이다.

2022년 5월에 단백질 생성을 위한 최초의 확산모델을 공동으로 개발한 남라타 아난드(Namrata Anand)는 크로마와 로제타폴드 디퓨젼이 중대한 의미를 가진다고 말했다. 이 프로그램들은 많은 데이터와 컴퓨터를 훈련하면서 기술을 내재화하였고 규모를 초대형으로 확장했다. 그녀는 “연구팀이 기술의 규모를 확장했던 방법의 측면에서 이 프로그램을 DALL-E에 비유할 수 있다고 본다”고 밝혔다.

확산모델은 입력된 내용에서 ‘노이즈(데이터에 무작위로 추가되는 전기 신호)’를 제거하도록 학습한 신경망(neural network)이다. 무작위의 픽셀이 주어지면 확산모델은 해당 픽셀들을 인식할 수 있는 이미지로 전환하려고 시도한다..

크로마에서는 단백질을 형성하는 아미노산 사슬을 해체하여 노이즈를 추가한다. 무작위로 아미노산 사슬 덩어리가 주어지면 크로마는 이를 이용해서 단백질을 만든다. 미리 설정된 제약 조건에 따라 크로마는 특정한 특성을 가진 새로운 단백질을 생성할 수 있다.

베이커의 팀이 개발한 프로그램도 최종 결과는 유사하지만 다른 접근법을 활용했다. 베이커의 팀에서 개발한 확산모델은 처음에 훨씬 더 뒤섞인 구조를 가지고 작업을 시작한다. 크로마와의 또 다른 차이점은 로제타폴드 디퓨전이 딥마인드(DeepMind)의 알파폴드(AlphaFold)처럼 단백질 구조를 예측하도록 학습한 별도의 신경망이 제공하는 정보를 활용해서 단백질을 설계한다는 점이다. 별도의 신경망이 안내하는 이 정보는 전반적인 생성 과정의 바탕이 된다.

제너레이트 바이오메디슨과 베이커의 연구팀이 각각 개발한 프로그램들은 둘 다 놀라운 결과를 보여준다. 이 프로그램들은 원형, 삼각형, 육각형 단백질 등 다양한 대칭도를 가진 단백질을 생성할 수 있다. 프로그램의 능력을 증명하기 위해서 제너레이트 바이오메디슨은 26개의 로마자와 0~10까지의 숫자 같은 모양의 단백질을 생성했다. 두 연구팀은 또한 기존 단백질 구조의 새로운 부분과 일치하는 단백질 조각도 생성할 수 있다.

이들이 프로그램의 능력을 보여주기 위해 설계한 단백질 구조 대부분은 실제로는 그다지 유용하지 않을 수 있다. 그러나 단백질의 기능이 단백질의 모양에 따라 결정되므로 필요에 따라 다양한 구조를 생성하는 능력은 매우 중요하다.

컴퓨터를 이용한 단백질 설계도 중요하지만 사실 목표는 설계를 바탕으로 실제 단백질을 제작하는 것이다. 크로마가 생성하는 단백질 설계를 실제 단백질로 제작할 수 있는지 확인하기 위해 제너레이트 바이오메디슨은 크로마가 생성한 단백질 설계 중 일부의 염기서열(sequence: 단백질을 구성하는 아미노산의 배열 순서)을 가져와서 또 다른 AI 프로그램을 이용해 실행했다. 실험 결과 해당 염기서열 중 55%에서 크로마가 생성한 구조의 단백질 접힘현상(protein folding)이 일어날 것으로 예측되었다. 이러한 결과는 크로마가 생성한 단백질 구조의 설계는 실제 단백질을 제작할 수 있다는 가능성을 보여준다.

베이커의 연구팀도 이 프로그램을 평가하기 위해 비슷한 실험을 수행했다. 이들은 제너레이트 바이오메디슨의 방식을 참고하는데 그치지 않고 로제타폴드 디퓨젼의 설계 일부를 연구소에서 직접 제작했다. (제너레이트 바이오메디슨도 비슷한 연구를 수행했지만 아직 결과를 공유할 준비는 되지 않았다고 밝혔다.) 트리페는 “우리의 작업은 단순한 개념증명을 넘어선다”며 “우리는 정말 훌륭한 단백질을 만들기 위해 실제로 이 프로그램을 사용하고 있다”고 말했다.

로제타폴드 디퓨젼이 생성한 단백질 구조가 코로나19 SARS-CoV-2 스파이크 단백질에 결합하는 모습
IAN C HAYDON / UW INSTITUTE FOR PROTEIN DESIGN

베이커에게 가장 중요한 결과는 혈중 칼슘 수치를 조정하는 부갑상선 호르몬에 부착되는 새로운 단백질을 성공적으로 생성한 연구였다. 베이커는 “우리는 AI 모델에 부갑상선 호르몬만 제공하고 이 호르몬에 결합하는 단백질을 생성하라고 요청했다”고 설명했다. 연구팀은 해당 단백질을 실험실에서 시험하는 과정에서 이 새로운 단백질이 컴퓨터를 이용한 다른 방식으로 제작되었던 그 어떤 단백질이나 심지어 기존 약물보다도 부갑상선 호르몬에 더 강력하게 결합한다는 것을 발견했다. 베이커는 “우리가 개발한 프로그램은 다른 정보가 전혀 없는 상황에서 이러한 단백질 설계를 해낼 수 있었다”고 감탄했다.

그리고리안은 새로운 단백질 개발이 수많은 개발 단계 가운데 첫 번째에 불과하다고 인정한다. 그는 “우리는 의약품 제조사”라며 “중요한 것은 효과적인 약물을 개발할 수 있는지 여부이다”라고 밝혔다. 단백질 기반 약물은 대량으로 제조된 후에 실험실에서 임상시험을 거치고 마지막에 인체를 대상으로 임상시험을 진행해야 한다. 이러한 과정에는 몇 년이나 걸릴 수 있다. 그러나 그리고리안은 자신의 회사뿐 아니라 다른 연구소들도 이 단계를 빠르게 진행할 수 있는 방법을 찾을 것으로 생각한다.

베이커는 “과학적 진보의 속도는 띄엄띄엄 나타나기 마련이지만, 우리는 지금 기술 혁명이 일어나는 한복판에 와 있다”고 말했다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.