fbpx

과기정통부, 기존보다 최대 1,000배 빠른 단백질 구조 정렬 기술 지원 성과

과기정통부 우수 신진 연구 지원으로 서울대 연구진이 분석 불가능했던 '트와일라이트 존' 영역까지 비교 가능한 FoldMason 개발했다.

과학기술정보통신부는 서울대 생명과학부 마틴 슈타이네거 교수 연구팀이 단백질의 3차원 구조와 아미노산 서열 정보를 통합 분석해 기존보다 최대 1,000배 빠른 속도로 수십만 개의 단백질 구조를 정렬할 수 있는 소프트웨어 ‘폴드메이슨(FoldMason)’을 개발했다고 2일 밝혔다.

과기정통부 기초연구 사업과 합성생물학 기술 개발사업의 지원으로 개발된 이 기술은 대규모 단백질 구조 빅데이터를 기반으로 한 초고속·고정밀 다중 정렬 분석이 가능하며, 기존 기술보다 100배에서 최대 1,000배나 빠른 속도를 내면서도 높은 정확도를 확보한다. 특히 단백질 간 유사성이 매우 낮아 분석이 거의 불가능했던 영역인 ‘트와일라이트 존(Twilight Zone, 아미노산 서열 유사도가 매우 낮아 기존 방법으로는 진화적 관계를 판단하기 어려운 영역)’을 포함해 거의 모든 단백질 계열을 폭넓게 비교하고 분석할 수 있는 길을 열었다.

AI 시대 단백질 구조 빅데이터 분석 한계 극복

단백질은 아미노산 서열이 복잡하게 접힌 3차원 구조를 통해 질병이나 노화와 관련된 생물학적 기능을 수행하기 때문에 단백질 구조의 진화 과정을 이해하는 것은 질병의 원인을 밝히고 새로운 치료법을 찾는 데 매우 중요하다. 최근 인공지능(AI) 기술의 비약적인 발전으로 AlphaFold 등을 통해 방대한 단백질 구조 데이터가 쏟아지고 있지만, 기존의 분석 기술은 연산 속도와 확장성 측면에서 한계를 보여왔다.

단백질 비교는 ‘정렬(alignment, 단백질들의 아미노산 서열이나 구조를 나란히 배열해 유사성과 차이점을 찾는 과정)’이라는 과정을 통해 이루어지는데, 기존의 서열 기반 정렬 방법은 단백질 간 차이가 큰 경우 정확한 비교가 어려웠다. 단백질의 3차원 구조는 서열보다 보존성이 높지만, AI 기술로 생성된 방대한 단백질 구조 데이터베이스를 기존 구조 기반 정렬 방법으로 처리하기에는 속도와 확장성에 한계가 있었다.

연구팀이 개발한 FoldMason은 단백질의 3차원 구조와 아미노산 서열 정보를 결합한 고속 하이브리드 정렬 프레임워크로, 초고속 계산이 가능하도록 설계된 알고리즘을 기반으로 한다. 진화적으로 매우 멀거나 구조적으로 유연한 단백질들에 대해서도 안정적인 정렬이 가능해, 기존 서열 기반 및 구조 기반 정렬 방법의 한계를 동시에 극복했다.

수십억 년 진화 과정 추적해 면역 체계 기원 규명

연구팀은 FoldMason을 활용해 인간과 박테리아처럼 서로 완전히 다른 생명체라도 바이러스에 대항하는 핵심 단백질의 설계도가 수십억 년간 거의 변하지 않고 유지되어 왔다는 사실을 확인했다. 이는 우리 몸의 면역 체계가 어디서부터 시작되었는지를 밝히는 중요한 실마리를 제공한다.

이번 연구 성과는 과기정통부 기초연구 사업과 합성생물학 기술 개발사업의 지원으로 수행됐으며, 세계 최고 권위의 학술지 중 하나인 ‘Science’지에 1월 30일(현지 시각 1월 29일 14시) 게재됐다. 특히 독일 출신의 슈타이네거 교수와 호주 출신의 카메론 길크리스트 박사 등 글로벌 우수 인재들이 한국의 연구 인프라와 지원 정책을 바탕으로 국내에서 달성한 성과라는 점에서 의미가 깊다.

슈타이네거 교수는 “이번 연구 성과는 수십억 년에 걸친 단백질 진화를 대규모로 추적할 수 있는 새로운 가능성을 제시했다”며 “향후 대규모 구조 변이 분석을 통해 질병 관련 단백질의 기능적 차이를 규명하고, 새로운 신약 표적을 발굴하는 데 기여할 것”이라고 밝혔다.