Getting value from your data shouldn’t be this hard

데이터 가치 추출이 지금처럼 힘들어서는 안 된다

데이터를 분산해 놓으면 데이터의 검색, 활용, 관리, 교환이 더 쉬워진다.

전 세계적으로 일어나고 있는 데이터 폭증 사태가 어떤 영향을 미칠지가 계속해서 우리의 상상력을 자극한다. 2018년 나온 한 보고서는 모든 사람이 매일 1초마다 평균 1.7MB의 데이터를 생성한다고 추산했는데, 연간 데이터 생성량은 그 이후로 두 배 이상 증가했고, 2025년이 되면 다시 또 두 배 이상 증가할 것으로 예상되고 있다. 전 세계 경제 동향을 연구하는 맥킨지 글로벌 인스티튜트(McKinsey Global Institute)가 발표한 보고서는 빅데이터를 능숙하게 사용하여 자율주행차, 개인 맞춤형 건강관리, 추적이 가능한 식품 공급망 등에 다양하게 적용함으로써 3조 달러(약 3,500조 원)의 부가가치를 창출할 수 있을 것으로 추산하고 있다.

그러나 이와 동시에 이 모든 데이터를 시스템에 추가하려는 움직임은 데이터를 찾고, 사용하고, 관리하고, 합법적이고 안전하고 효율적으로 공유하는 방법에 관련해 혼란을 야기하고 있다. 특정 데이터 세트의 출처는 어디인가? 누가 어떤 데이터의 주인인가? 누가 특정한 데이터를 볼 수 있게 허락되나? 데이터는 어디에 있나? 공유가 가능한가? 팔 수는 있는가? 사람들이 그것의 사용 방법을 볼 수 있나? 여러 가지 의문이 뒤따른다.

데이터의 적용 사례가 늘어나고 보다 보편화됨에 따라 생산자, 소비자, 데이터 소유자와 책임자는 따라야 할 표준화된 업무 절차인 ‘플레이북(playbook)’이 없다는 사실을 깨닫고 있다. 소비자는 신뢰할 수 있는 데이터에 연결하여 가능한 최선의 결정을 내리기를 원한다. 생산자는 데이터를 필요로 하는 사람과 안전하게 공유할 수 있는 도구를 원한다. 그러나 기술 플랫폼은 이런 욕구를 만족시켜주지 못하고 있고, 소비자와 생산자를 연결해줄 만큼 실제로 모두에게 믿음을 주는 것도 없다.

데이터를 어떻게 찾아서 언제 옮겨야 하나?

완벽한 세상이라면 데이터는 누구나 쓸 수 있는 소프트웨어처럼 자유롭게 흘러 다닐 것이다. 그것은 포장되어 원자재처럼 팔리고, 볼 수 있는 권한이 있는 사람이라면 누구나 아무 문제 없이 쉽게 볼 수 있을 것이다. 데이터의 출처와 이동 경로를 추적할 수 있게 됨으로써 도중에 어디선가에서 시도될지 모를 악의적 사용에 대한 어떠한 걱정도 없앨 수 있다.

물론 오늘날의 세상은 이런 식으로 돌아가지 않는다. 엄청난 데이터 폭증으로 인해 수많은 문제와 기회들이 생겨나자 많은 양의 정보를 공유하기가 까다로워졌다.

조직 안팎 거의 어디서나 데이터가 생성되고 있는 현재 제일 먼저 해결해야 할 과제는 어떤 데이터를 수집하고 있고, 그것을 찾기 쉽게 정리하는 방법을 알아내는 일이다.

저장되고 처리되는 데이터와 인프라의 투명성(transparency)과 주권(sovereignty)의 결핍은 신뢰 문제를 일으킨다. 오늘날 여러 ‘기술 스택(technology stack)’, 즉 기술 조합에서 중앙집중화된 장소로 데이터를 이동하는 데는 많은 비용이 들며 비효율적이다. 개방형 메타데이터 표준과 광범위하게 접근 가능한 애플리케이션 프로그래밍 인터페이스의 부재는 데이터의 접근과 소비를 어렵게 만들 수 있다. 섹터별로 데이터 온톨로지(ontology, 사물 간의 관계 등 여러 개념을 컴퓨터 처리가 가능한 형태로 표현하는 것)가 있으면 섹터 외부의 사람들은 새로운 데이터 소스가 주는 혜택을 받기 힘들 수 있다. 그리고 이해당사자가 여럿이고 기존 데이터 서비스에 접근하기 어려우면 각자의 책임 소재를 정해놓은 ‘거버넌스 모델(governance model)이 없이 데이터를 공유하기 어려울 수 있다.

앞장서는 유럽

이러한 여러 가지 문제에도 불구하고 대규모 데이터 공유 프로젝트가 추진되고 있다. 유럽연합(EU)과 한 비영리 단체가 지원하는 프로젝트는 가이아엑스(Gaia-X)라는 ‘상호운용이 가능한 데이터 교환 서비스’를 제공하고 있다. 기업들은 이 서비스를 통해 유럽의 엄격한 데이터 프라이버시 보호법의 보호를 받으며 데이터를 공유할 수 있다. 가이아엑스는 업계 전반에서 데이터를 공유하는 그릇이자 인공지능(AI), 분석, 사물인터넷 등과 연결된 데이터 서비스 관련 정보가 모이는 저장고로 그려지고 있다.

휴렛패커드 엔터프라이즈(Hewlett Packard Enterprise, 이하 HPE)는 최근 기업, 서비스 제공자, 공공기관이 가이아엑스에 참여할 수 있게 지원하는 솔루션 프레임워크를 발표했다. 현재 개발 단계에 있고, 개방형 표준과 클라우드 네이티브(Cloud Native, 클라우드의 이점을 최대한 활용할 수 있게 애플리케이션을 구축하고 실행하는 방식)를 기반으로 하는 이 데이터스페이스 플랫폼은 데이터, 데이터 분석 방법, AI를 도메인 전문가와 일반 사용자가 보다 쉽게 접근할 수 있게 해준다. 이것은 도메인 영역 전문가들이 늘 그렇듯 많은 비용을 들여 데이터를 중앙집중화된 장소로 이동하지 않고서도 신뢰할 수 있는 데이터세트를 보다 쉽게 찾아내고, 운용 데이터에 대한 분석을 안전하게 수행할 수 있는 공간을 제공한다.

기업은 이 프레임워크를 통해 IT 환경 전반에 걸쳐 있는 복잡한 데이터 소스를 통합함으로써 데이터 투명성을 대폭 제고할 수 있게 되므로 데이터 굳이 과학자가 아니더라도 누구나 기업이 보유하고 있는 데이터, 접근 방법, 사용 방법을 실시간으로 파악할 수 있다.

데이터 공유 추진도 기업이 추진해야 할 최우선 과제다. 기업이 직면한 중요한 우선 과제 중 하나는 내부 AI와 머신러닝 모델을 교육하는 데 사용되고 있는 데이터의 베팅(vetting), 즉 배경 조사다. 기업과 업계는 제품 개발부터 채용과 제조에 이르기까지 모든 것을 지속적으로 개선하기 위해 AI와 머신러닝을 광범위하게 활용하고 있다. 우리는 이제 막 시작하는 단계에 있다. 인터넷데이터센터(IDC)는 2021년 3,280억 달러(약 383조 원)가 될 것으로 예상되는 전 세계 AI 시장이 2025년이 되면 5,540억 달러로 성장할 것으로 전망했다.

정부와 기업은 AI의 잠재력을 십분 발휘하기 위해 이러한 모델을 추진하는 모든 데이터의 집단적 족적을 더 잘 이해하고 있을 필요가 있다. AI 모델은 어떻게 결정을 내리나? 그들도 편견에 빠지나? 그들은 믿을 만 한가? 신뢰할 수 없는 개인이 기업이 모델을 교육했을 때 섰던 데이터에 접근하거나 데이터를 변경할 수 있었나? 데이터 생산자와 소비자를 보다 투명하고 효율적으로 연결하면 이러한 질문에 대한 해답을 찾는 데 도움이 될 수 있다.

데이터 성숙도 구축

기업이 하룻밤 사이에 모든 데이터를 잠금 해제하는 방법을 찾아낼 수는 없다. 그러나 데이터 공유에 대한 사고방식을 조성하는 데 도움이 되는 기술과 관리 개념을 활용할 수 있게 준비할 수는 있다. 즉, 데이터를 임시방편으로 사용하기보다 전략적이고 효과적으로 소비하거나 공유할 수 있게 성숙도를 높일 수 있다.

데이터 생산자는 일련의 단계를 밟음으로써 데이터 배포 범위의 확대에 대비할 수 있다. 고객은 데이터의 위치를 파악하고 수집 방법을 이해해야 한다. 그런 다음 데이터 소비자가 적절한 적절한 시기에 적절한 데이터 세트에 접근할 수 있는지 확인해야 한다. 그것이 출발점이다.

이어 더 어려운 부분이 나온다. 데이터 생산자에 조직 안팎에 소비자가 있을 경우 소비자는 데이터에 연결돼야 한다. 이는 조직적 및 기술적인 과제다. 많은 조직이 다른 조직과의 데이터 공유를 관리할 수 있기를 바란다. ‘데이터의 민주화’, 즉 적어도 조직 전반에서 데이터를 찾을 수 있게 해주는 것은 조직의 성숙도 문제에 해당한다. 이 문제를 어떻게 다뤄야 할까?

자동차 산업에 기여하는 회사들은 벤더, 협력업체, 하청업체들과 적극적으로 데이터를 공유한다. 자동차를 조립하는 데는 많은 부품과 협조가 필요하다. 협력업체는 엔진에서 타이어, 인터넷 수리 채널에 이르기까지 모든 것에 대한 정보를 선뜻 공유한다. 자동차 데이터 공간은 1만 곳이 넘는 벤더에 서비스를 제공할 수 있다. 하지만 다른 산업은 더 배타적인 모습을 보일 수 있다. 일부 대기업은 자체 자사 사업부들 사이에서도 민감한 정보를 공유하고 싶어하지 않을 수 있다.

데이터 중심의 사고방식 조성

소비자와 생산자 중 어느 한 편에 속한 기업은 다음과 같은 전략적 질문을 자문해 봄으로써 데이터 공유와 관련된 사고방식을 개선할 수 있다.

  • 기업이 AI와 머신러닝 솔루션을 구축하고 있다면 팀들은 어디에서 데이터를 얻고 있는가? 그들이 데이터에 어떻게 접속하고 있는가? 그리고 데이터의 신뢰성과 출처를 보증하기 위해 어떻게 데이터의 이력을 추적할 수 있는가?
  • 데이터가 다른 사람들에게 가치가 있는 경우, 팀이 그 가치를 확장하기 위해 현재 취하고 있는 현금화 경로는 무엇이며, 그 경로를 어떻게 관리할 것인가?
  • 기업이 이미 데이터를 교환하거나 현금화하고 있다면 여러 플랫폼, 즉 온 프레미스(on premises, 기업이 서버를 클라우드 환경이 아닌 자체 설비로 보유하고 운영하는 방식)와 클라우드에서 모두 광범위한 서비스를 허가할 수 있는가?
  • 벤더와 데이터를 공유해야 하는 조직의 경우 현재 동일한 데이터세트 및 업데이트에 대한 그들의 조율은 어떻게 이루어지고 있는가?
  • 생산자들은 그들의 데이터를 복제하길 원하나, 아니면 사람들이 모델을 가져오게 만들기를 원하나? 데이터세트가 너무 커서 복제가 힘들 수도 있다. 기업은 데이터가 존재하는 플랫폼에 소프트웨어 개발자를 둔 채 모델을 안팎으로 이동해야 하나?
  • 데이터를 소비하는 부서의 근로자가 조직 내 데이터 생산자가 하는 일에 어떤 영향을 미칠 수 있는가?

행동에 나서기

데이터 혁명으로 인해 사업 기회가 창출되고 있는 가운데 전략적 차원에서 데이터를 검색하고, 수정하고, 관리하고, 데이터로부터 통찰력을 얻는 방법을 둘러싼 혼란은 가중되고 있다. 데이터 생산자와 소비자의 상호 단절은 점점 더 심각해지고 있다. HPE는 그들 모두가 데이터 혁명을 자신에게 유리하게 만드는 데 필요한 공통의 기반을 제공하기 위해 HPE 에즈메랄 소프트웨어 플랫폼(HPE Ezmeral Software Platform)과 같은 기반과 솔루션을 오픈소스로 활용하여 온 프레미스와 공공 클라우드를 모두 지원하는 플랫폼을 구축하고 있다. (HPR 기고)

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.