fbpx

과기정통부, 데이터 반출 없이 의료 데이터 공유하는 ‘의료데이터 스페이스’ 실증 착수

환자 데이터를 한곳에 모으지 않고 병원이 각자 보관한 채, 분석에 필요한 학습 결과만 밖으로 내보내는 방식으로 50여 개 의료기관·AI 기업이 의료 데이터를 공유하는 실증사업이 시작됐다.

의료 AI를 개발하려면 방대한 환자 데이터가 필요하지만, 민감한 의료 정보를 한곳에 모으는 일은 늘 보안과 개인정보의 벽에 부딪힌다. 데이터를 옮기지 않고도 함께 쓸 방법은 없을까.

데이터를 한곳에 모으지 않고도 여러 의료기관이 안전하게 함께 활용하는 ‘의료데이터 스페이스’ 실증사업이 본격화됐다. 과학기술정보통신부(과기정통부)와 한국지능정보사회진흥원(NIA)은 ‘의료데이터 스페이스 실증사업 출범식’을 23일 개최하고 사업의 본격 착수를 알린다고 밝혔다. 데이터 스페이스(data space)는 데이터를 한 곳에 모으는 중앙집중 방식 대신, 제공자와 수요자가 합의된 규칙 아래 데이터를 각자 보유한 채 안전하게 공유·활용하는 연합형 데이터 활용 체계를 뜻한다. 이번 사업은 데이터를 밖으로 빼내지 않는 안전한 연구·분석 환경을 제공해 의료 AI 서비스 개발을 촉진하고, 산업 전반의 인공지능 전환(AX)을 가속화하는 것을 목표로 한다. 올해는 의료 분야를 중심으로 추진되며, 총 50여 개 의료기관·AI 기업이 참여한다.

데이터는 두고, 결과만 내보낸다…’분산형’의 핵심

이번 사업의 출발점은 의료 데이터 활용의 오랜 딜레마다. 의료 AI를 개발하려면 많은 환자 데이터가 필요하지만, 민감한 의료 정보를 한곳에 모으면 보안과 개인정보 보호 측면에서 위험이 커진다. 데이터 스페이스는 ‘데이터를 모으지 않고 함께 쓴다’는 발상으로 이 문제에 접근한다.

핵심은 분산형 구조다. 데이터는 중앙에 모으지 않고 제공 기관이 각자 보유하며, 데이터를 다루기 쉽게 다듬는 전처리도 각 기관의 보안 영역 안에서 이뤄진다. 데이터는 참여자 간에 합의된 규칙, 즉 접근 범위와 목적에 한해서만 공유·활용된다. 병원의 환자 데이터가 병원 밖으로 나가지 않는 것이다.

대신 밖으로 나오는 것은 데이터가 아니라 결과다. 전처리된 데이터는 AI 모델 학습이나 연구용으로 대용량 분석 구역에 일시적으로 전송돼 분석된 뒤 완전히 삭제되며, 데이터 스페이스 밖으로는 AI 모델이나 분석 결과 같은 ‘학습 결과’만 반출된다. 원본 데이터는 그대로 둔 채 분석의 산물만 가져가는 셈이다.

이 체계가 굴러가게 하는 것은 합의된 규칙과 참여 유인이다. 참여자들은 거버넌스를 구성해 데이터 접근 권한과 절차 등 규칙을 정하고, 운영기관이 이를 총괄하면서 분석에 필요한 고성능 인프라(GPU·스토리지 등)와 중개 기능을 제공한다. 또 데이터 제공자에게는 그 데이터로 나온 연구 성과를 공유하고 운영기관에는 플랫폼 이용료를 지불하는 식으로, 참여자들이 계속 데이터를 공유할 유인을 두는 것이 특징이다.

50여 개 기관 참여…”데이터 스페이스 확산의 출발점”

사업 수행기관으로는 지난 3월 공고와 5월 선정평가를 거쳐 카카오헬스케어 연합체(컨소시엄)가 최종 선정됐다. 이 연합체에는 주관기관인 카카오헬스케어를 비롯해 국립암센터, 삼성서울병원, 세브란스병원, 고려대학교의료원 등 27개 의료기관이 참여한다.

기업도 두 갈래로 참여한다. 루닛, 엘리스그룹, 휴니버스글로벌 등 3개 플랫폼·인프라 기업이 기반을 맡고, 뷰노·메디웨일·업스테이지 등 18개 데이터 수요기업이 데이터·AI 기반 서비스 개발을 수행한다. 의료기관과 기업을 합쳐 50여 곳이 하나의 협력 체계에 들어오는 구조다.

운영 주체인 카카오헬스케어는 그간 자체적으로 360억 원 이상을 투자해 구축해 온 의료데이터 인프라와 의료기관 협력체계를 토대로, 연구 기획부터 데이터 탐색·활용, 공용기관 보건의료정보심의위원회(DRB) 심의, 데이터 분석·AI 모델 학습, 결과 검증까지 전 주기 연구 절차를 지원하는 데이터 스페이스를 운영할 계획이다. 또 정부 지원이 종료되는 2028년까지 31개 이상의 의료기관과 50개 이상의 수요기업이 참여하는 규모로 확대하고, 그 이후에도 자생적으로 운영되는 체계를 갖추겠다는 구상을 제시했다.

이번 의료 분야 실증은 더 넓은 그림의 시작점으로 자리매김된다. 과기정통부 김경만 인공지능정책실장은 “올해 추진되는 의료 분야 실증은 데이터 스페이스 기반 데이터 공유·활용의 첫 사례로서, 향후 데이터 스페이스가 다양한 산업 분야로 확산되는 출발점이 될 것”이라며 “의료데이터 스페이스에 더 많은 의료기관, 기업들이 참여할 수 있도록 지속적으로 지원하겠다”고 밝혔다.