
KAIST, AI가 20년 난제 ‘유전자 기능 규명’ 가속 길 연다
AI를 활용해 미생물 유전자 기능 발견을 획기적으로 가속할 수 있는 최신 연구 전략이 제시됐다.
KAIST(총장 이광형) 생명화학공학과 이상엽 특훈교수 연구팀은 12일, UCSD(캘리포니아대학교 샌디에이고) 생명공학과 버나드 폴슨(Bernhard Palsson) 교수와 함께 AI를 활용해 미생물 유전자 기능 발견을 가속할 수 있는 최신 연구 접근법을 체계적으로 정리·분석한 리뷰논문을 발표했다고 밝혔다.
연구팀은 기존의 서열 유사성 분석 기법부터 AlphaFold(구글 딥마인드가 개발한 단백질 구조 예측 AI), RoseTTAFold(미국 워싱턴대에서 개발한 단백질 구조 예측 AI) 같은 최신 심층학습 기반 AI 모델에 이르기까지 유전자 기능 발견을 촉진해 온 다양한 전산생물학적 접근법을 종합적으로 정리했다. 특히 AI가 불확실성이 높은 예측을 스스로 선별해 실험을 제안하고 그 결과를 다시 학습에 반영하는 ‘능동적 학습(Active Learning)’ 기반 연구 프레임워크를 강조했다. 연구 결과는 생명공학 분야 권위 학술지 <Nature Microbiology> 1월 7일자에 게재됐다.
유전자는 알지만 기능은 모른다
2000년대 초 전장 유전체 해독 기술(생명체의 전체 DNA 염기서열을 읽어내는 기술)이 본격화되며 생명체의 유전자 구성을 완전히 규명할 수 있을 것이라는 기대가 컸다. 인간 게놈 프로젝트 완료 이후, 수천 종의 미생물 유전체가 해독됐다. 유전자가 어디에 있고, 얼마나 있는지는 알게 됐다.
그러나 20년이 지난 지금도 미생물 유전체 내 상당수 유전자는 어떤 역할을 하는지 밝혀지지 않은 상태다. 이른바 “유전자는 알지만, 기능은 모른다”는 오랜 난제다. 마치 책을 발견했지만 그 안에 무슨 내용이 적혀 있는지 읽을 수 없는 것과 같다.
유전자 결실 실험(특정 유전자를 제거해 어떤 변화가 생기는지 관찰), 발현량 조절(유전자가 얼마나 활발히 작동하는지 조절), 시험관 내 활성 측정(실험실에서 단백질의 화학적 활성 측정) 등 다양한 실험이 시도돼 왔다. 하지만 여러 한계가 있었다.
첫째, 대규모 실험의 한계다. 미생물 한 종당 수천 개의 유전자가 있고, 각 유전자를 일일이 실험하려면 막대한 시간과 비용이 든다. 둘째, 복잡한 생물학적 상호작용이다. 유전자는 단독으로 작동하지 않고 다른 유전자들과 복잡하게 상호작용한다. 하나의 유전자 기능을 밝히려면 이 모든 관계를 이해해야 한다. 셋째, 실험실 결과와 실제 생체 내 반응 간 불일치다. 시험관에서 측정한 활성이 실제 살아있는 세포 안에서도 같은 방식으로 작동한다는 보장이 없다.
이러한 이유로 유전자 기능 규명에는 여전히 많은 시간과 비용이 소요돼 왔다.

AI가 실험을 제안한다
연구팀은 이러한 한계를 극복하기 위해 전산생물학(컴퓨터를 이용해 생물학적 데이터를 분석하고 예측하는 학문)과 실험생물학을 결합한 AI 기반 접근이 필수적이라고 강조했다. 특히 AlphaFold와 RoseTTAFold 같은 단백질 3차원 구조 예측 기술은 단순한 기능 추정을 넘어, 유전자 기능이 어떻게 작동하는지 이해할 수 있는 가능성을 제시했다. 단백질의 3차원 구조를 알면, 어떤 물질과 결합하고 어떤 반응을 촉매하는지 예측할 수 있다.
연구팀이 특히 강조한 것은 AI가 실험을 안내하는 ‘능동적 학습(Active Learning)’ 기반 연구 프레임워크다. 능동적 학습은 AI 모델이 불확실성이 높은 예측을 스스로 선별해 실험을 제안하고, 그 결과를 다시 학습에 반영하는 방식이다. 마치 AI가 “이 유전자의 기능이 A일 확률은 60%, B일 확률은 40%로 불확실하니, 이것부터 실험으로 확인해보세요”라고 제안하는 것과 같다. 실험 결과는 다시 AI 모델을 개선하는 데 사용되고, 개선된 AI는 또 다른 중요한 실험을 제안한다. 이런 식으로 예측과 검증이 반복적으로 연결되면서 연구 속도가 비약적으로 빨라진다.
이를 위해 연구팀은 자동화된 실험 플랫폼과 바이오파운드리(생물학 연구의 자동화·표준화된 시설) 등 공유 연구 인프라와의 긴밀한 통합이 필수적이라고 강조했다. 또한 실험적으로 검증되지 못한 ‘실패 데이터’ 역시 향후 연구를 위한 중요한 학습 자산으로 공유돼야 한다고 덧붙였다.
이상엽 특훈교수는 “유전자 기능 발견의 한계를 넘어서기 위해서는 연구자의 지휘하에 AI가 안내하는 체계적 실험 프레임워크와 자동화 연구 인프라의 결합이 핵심”이라며, “예측과 검증이 반복적으로 연결되는 연구 생태계 구축이 중요하다”고 강조했다.
이번 연구는 AI 예측, 자동화 실험, 그리고 이 둘을 연결하는 능동적 학습이 결합되면 20년간 풀리지 않았던 “유전자는 알지만 기능은 모른다”는 문제를 훨씬 빠르게 해결할 수 있을 것으로 기대된다.