How AI simplifies data management for drug discovery

신약개발을 지원하는 AI

임상시험에 인공지능을 활용하여 환자 개인정보를 보호하면서도 규제 부담을 줄이는 효과를 얻고 있다.

북부 캘리포니아에 위치한 캘리테라 바이오사이언스(Calithera Biosciences)는 면역요법을 전문으로 하는 소규모 바이오테크 회사다. 이 기업은 현재 암과 낭포성섬유증 치료제를 시판 전(전임상 및 임상) 단계에서 연구하고 있으며, 복잡한 신제품을 제조하는 모든 회사가 그렇듯 방대한 데이터를 지속적으로 모은다.

하지만 다른 분야의 첨단 기술 회사와 달리 신약개발사는 미국 식품의약국(US Food and Drug Administration)으로부터 지속적으로 모니터링을 받고 있다. 사람을 대상으로 한 임상 시험을 진행할 때는 특히 더 그렇다.

현재 캘리테라는 몇몇 임상 시험을 진행하고 있다. 이들 시험에서는 약제가 안전한지, 특정한 유전자 변이를 지닌 환자에게 약효가 있는지, 다른 치료법과 병행할 때도 치료 효과가 유지되는지 등을 살핀다. 이 과정에서 기업은 수백 명의 환자에 대한 상세 데이터를 수집해야 한다. 임상 초기에 소수의 환자만 참여하는 임상 시험도 있지만, 전 세계에 걸쳐 100군데 이상의 연구 기관이 참여하는 경우도 많다.

“다른 사업에 비교했을 때 생명과학 분야의 난제는 방대한 양의 데이터가 생성된다는 점이다.” 캘리테라의 수석 정보기술 전략가인 베루즈 나자피(Behrooz Najafi)의 말이다. 나자피는 헬스케어테크 회사 이노비오(Innovio)의 정보기술담당 최고 책임자(CITO)이기도 하다. 캘리테라는 데이터를 저장 및 관리하는 동시에, 지금부터 몇 년 후라도 이를 즉시 사용할 수 있도록 준비해야 한다. 또한 데이터의 생성, 저장 및 사용에 관한 FDA의 특정 요구 사항을 준수해야 한다.

파일 서버를 업그레이드하는 일견 단순한 작업조차 제약사는 FDA의 엄격한 프로토콜에 맞춰 여러 테스트 및 검토 단계를 거쳐야 한다. 나자피는 이러한 규정을 준수하는 과정이 직접 비용 및 고용 시간 양 측면에서 회사의 비용을 30~40% 정도 증가시킨다고 말한다. 어쩌면 더 많은 연구나 부가가치를 창출할 수 있는 활동에 투입할 수 있는 자원이다.

캘리테라는 나자피가 안전한 ‘저장 용기(storage container)’라고 부르는 곳에 데이터를 저장하는 방식을 도입했는데, 이를 통해 부가적인 비용 문제를 상당 부분 해소하고 데이터 추적 능력을 크게 개선하였다. 이 데이터 저장소는 인공지능에 의해 구동되는 클라우드 문서 관리 애플리케이션으로 보호받는다. AI는 지치거나 잠들지 않고도 수백 가지의 문서와 데이터 형식을 구별하는 법을 배운다.

처리 방식은 다음과 같다.

먼저 시스템에 임상 및 환자 데이터가 입력되면 이를 AI가 훑어본다. 이 과정에서 AI는 정확성, 완전성, 규정 준수 등 데이터의 면면과 관련된 특징을 인식한다. AI는 테스트 결과가 누락되거나 환자가 필수 일지 작성을 빠뜨린 경우 별도 표시를 할 수 있다. 또한 사용자에 따라 특정 데이터 유형에 대한 접근 자격과 해당 데이터로 수행 가능 혹은 불가능한 작업을 구분할 수 있다. 랜섬웨어 공격을 감지하고 차단할 수 있을 뿐 아니라, FDA 또는 기타 규제 기관의 기준에 맞게 모든 것을 자동 문서화할 수 있다.

나자피는 “이 처리 방식은 우리의 규정 준수 부담을 덜어준다”고 말했다. 수많은 연구 현장으로부터 데이터가 플랫폼에 저장되면, AI는 자료의 안전성, 완전성, 규정 준수 여부를 검토한 뒤 만약 문제점이 발견되면 이를 캘리테라 측에 알려준다. 

나자피의 말처럼, 연구 요건과 규제 기관의 요구 사항을 준수하기 위해 신약개발 데이터를 관리하는 일에는 큰 노력과 비용이 든다. 생명과학 산업은 다른 산업을 위해 개발된 데이터 관리 기술과 플랫폼을 차용할 수 있지만, 의약품 개발에 요구되는 수준의 보안, 검증, 및 감사 추적에 대응할 수 있도록 수정되어야 한다. AI는 데이터의 보안, 일관성 및 유효성을 개선하여 이러한 작업을 간소화할 수 있다. 이 덕분에 제약 회사와 연구 조직은 그들의 핵심 업무에 더 많은 자원을 투입할 수 있다.

복잡한 데이터 관리 환경

절차를 준수하는 것은 신약의 효과와 안전성을 입증하는 데 있어서 필수적인 요소이다. 또한 임상 시험 및 시판 후 조사에 참여하는 수천 명의 환자의 사생활과 개인 정보를 보호하는 역할도 한다. 거대 글로벌 대기업이든 한 가지 약제만을 개발하는 소규모 신생 기업이든 기업의 규모와 관계없이, 모든 약물 개발자는 임상 시험과 관련된 모든 정보의 기록, 감사, 검증, 보호 과정에서 동일한 표준 절차를 준수해야 한다.

약물 효능을 입증하는 공식 기준인 이중 맹검 연구(double-blind study)를 수행할 때 연구자들은 환자의 정보를 익명화해야 한다. 이중 맹검 연구란 약의 효과를 판정할 때, 피시험자에게 노출된 독립 변인의 수준을 피시험자 및 연구자가 모르도록 진행하는 연구 방법이다.

그러나 반대로 이 데이터는 추후 쉽게 비익명화(de-anonymize)를 거쳐 식별될 수 있어야 한다. 이를 통해 대조군의 환자가 연구 종료 후 시험 약물을 투여받아 약물의 효능을 실제 임상 환경에서 추적 관찰할 수 있게 된다. 이 과정은 때때로 수년에 걸쳐 이루어진다.

실리콘밸리의 한 소프트웨어 회사인 이그나이트의 전략상품 담당 최고책임자(CSPO) 라민 파라삿(Ramin Farassat)은 “신흥 및 중견 생명과학 기업에 데이터 관리 부담이 큰 영향을 미친다”고 설명했다. 이그나이트는 AI 데이터 관리 플랫폼을 제작하고 지원하는 업체로, 캘리테라를 비롯해 생명과학 회사 수백 군데에서 사용하는 AI 데이터 관리 플랫폼을 담당하고 있다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.