Getting the most from your data-driven transformation: 10 key principles

데이터 중심 혁신의 10대 원칙

기업이 점점 더 영향력이 커지고 있는 데이터를 중심으로 성공적인 변화를 도모하기 위해 따라야 할 10대 원칙이 무엇인지 알아본다.

오늘날 비즈니스에서 데이터는 그 무엇보다 중요하다. 관련 연구들에 따르면, 데이터 중심 기업들은 데이터를 활용하지 않는 기업들보다 수익 목표를 달성할 확률이 58% 더 높았으며, ‘저성과 기업(laggard)’들 보다 훨씬 더 나은 성과를 낼 가능성도 162%나 더 높다. 데이터 분석은 전체 기업 중 거의 절반에 달하는 곳에서 제품 생산부터 목표로 하는 시장에 이르기까지 모든 것에 대해 더 나은 결정을 내릴 수 있도록 도움을 주고 있다. 데이터는 생산하는 작물의 가치를 높이려는 농장들을 도울 수도 있고, 기술을 이용해 농구와 같은 스포츠의 패러다임을 근본적으로 변화시킬 수도 있다.

최적의 방식으로 사용할 경우, 데이터는 매우 중요한 자산이 될 수 있다. 문제는 데이터를 업무에 적용하기가 항상 쉽지만은 않다는 점이다. IDC의 연구와 분석 결과가 담긴 ‘시게이트 리싱크 데이터 보고서(Seagate Rethink Data report)’에 따르면, 기업에서는 이용할 수 있는 데이터의 32%만 사용되고 있으며, 나머지 68%는 방치되고 있다. 경영진들은 자신들이 생산하고, 획득하고, 관리하고, 사용하는 데이터에서 최적의 가치를 끌어낼 능력과 이와 관련한 장기적인 계획에 관해서 완전히 확신하지 못하고 있다.

그것은 어떤 의미일까? 데이터가 기업의 건전성에 그렇게 중요한데도 데이터에 숙달하는 것이 어려운 이유는 무엇일까?

잘 운영되는 기업에서는 안전하고 사용하기 쉬운 시스템을 이용해 데이터 생산자와 데이터 소비자를 연결한다. 그러나 일반적인 기업들은 아니다. 기업들은 데이터를 찾아내고 전략적 목적을 위해 사용해야 하는 과제를 안고 있다. 그러나 데이터의 출처는 파악하기도 어렵고, 평가하기는 더욱 어렵다. 업무 자동화를 위해 AI 모델을 훈련할 때 사용하는 데이터 세트도 검증하기 어려울 수 있다. 해커들은 언제나 데이터를 훔치거나 훼손하려고 하고 있다. 또한 양질의 데이터를 찾는 것은 데이터에 가장 익숙한 데이터 과학자들에게도 어려운 일이다.

소통의 단절 또한 데이터에서 얻은 중요한 내용을 전달하는 과정을 어긋나게 할 수 있다. 데이터 프로젝트에 자금을 지원하는 경영진과 그러한 프로젝트를 수행하는 데이터 공학자 및 과학자들이 언제나 서로를 이해하는 것은 아니다. 이러한 데이터 전문가들이 상세한 계획을 세우면서 프로젝트를 통해 얻을 수 있는 결과의 틀을 적절하게 설정하지 못하면, 그들에게 작업을 요청했던 경영자들은 프로젝트의 방향이 자신들이 바라던 것과 다르다고 말할 수도 있다. 그러면 프로젝트는 실패로 낙인찍힐 것이고, 이를 통해 가치를 창출할 기회도 무산될 것이다.

기업들은 자신들의 데이터 성숙도와 상관없이 데이터 문제와 마주한다. 기업들은 기업의 미래에서 데이터를 중요한 부분으로 활용할 방법을 모색하고 있지만, 다양한 계획을 실행하는 것도 버거워하고 있다. 이런 상황에 있다면 어떻게 대처해야 할까?

기업들은 클라우드로 조직을 재편하던 2010년대와 비슷한 변곡점에 있음을 깨달았다. 기업들은 몇 년을 들여서 클라우드 전략을 개발하고, 클라우드 이주를 계획하고, 플랫폼을 선택하고, ‘클라우드 비즈니스 오피스(Cloud Business Office, CBO)’를 구축하고, 클라우드 기반의 환경에서 최상의 이익을 얻기 위해 조직을 구성했다. 그 결과, 기업들은 현재 이익을 거두어들이고 있다. 특히 기업들은 클라우드로 이주하면서 기업의 앱과 IT 시스템을 현대화할 수 있었다.

기업들은 이제 데이터와 관련해서도 비슷한 결정을 내려야 한다. 특히 데이터가 사업의 진척을 위한 기반을 제공하고 있다는 것을 확실히 보여주는 많은 요인들을 고려할 필요가 있다. 따라서 다음과 같은 질문을 던져야 한다.

  • 기업에 필요한 데이터가 쉽게 이용 가능한가?
  • 어떤 유형의 데이터가 필요한가? 당신이 잘 모르는 광범위하고 다양한 데이터 세트가 존재하는가?
  • 데이터가 깨끗하고, 현재성이 있으며, 믿을만하고, 기존 시스템과 통합될 수 있는가?
  • 나머지 최고 경영진이 데이터 담당자의 방식에 동조하는가?
  • 데이터 과학자와 최종 소비자가 ‘필요한 것’과 ‘전달되고 있는 것’에 대해 효과적으로 소통하고 있는가?
  • 데이터는 어떻게 공유되고 있는가?
  • 데이터를 어떻게 신뢰할 수 있는가?
  • 데이터에 접근해야 하는 모든 사람들과 조직이 데이터를 사용할 권리를 가지고 있는가?

이러한 질문들은 단순한 ‘비즈니스 인텔리전스(business intelligence, 기업에서 데이터를 수집, 정리, 분석, 활용하여 효율적인 의사결정을 할 수 있는 방법)’를 뛰어넘어, 데이터와 관련해 구체화되고 있는 기회를 활용하는 것에 관해 묻고 있다. 데이터 사용은 폭발적으로 증가하고 있고, 데이터 사용을 가능하게 하는 도구들도 더 효율적으로 바뀌고 있으며, 데이터 과학자들의 전문지식도 늘어나고 있다. 그러나 데이터에 숙달하기는 어렵다. 많은 기업들이 손에 쥐고 있는 데이터를 최대로 활용하는 데 능숙하지 않다. 따라서 기업들은 데이터 전략을 주도할 사람들과 과정, 기술에 투자할 필요가 있다.

이 모든 것을 염두에 두고, 기업들이 데이터 전략을 개발할 때 따라야 하는 10가지 원칙을 제시한다.

1. 데이터의 실제 가치를 이해하라

당신의 데이터는 당신에게 어느 정도 가치가 있는가? 데이터의 가치는 다양한 방식으로 측정될 수 있다. 고려해야 할 전통적인 측정 기준에는 데이터를 획득하는 비용, 데이터를 저장하고 전송하는 비용, 획득한 데이터의 고유성, 추가 수익 창출을 위해 데이터를 사용할 기회 등이 있다. 시장의 측정 기준은 데이터의 품질, 수명, 데이터 제품의 인기 같은 데이터 가치에 영향을 준다.

당신의 데이터는 다른 이들에게도 가치가 있을 수 있다. 예를 들어, 병원이 당신의 데이터에 가치를 창출할 수 있는 환자 데이터 세트를 수집한다고 가정해 보자. 그런 경우에 그 데이터는 질병 관련 연구원들, 제약회사, 보험회사, 그리고 다른 잠재적인 구매자들에게도 이익이 될 것이다. 데이터의 잠재적인 사용자들을 익명화하고 집계하고 통제하고 식별할 수 있는 메커니즘이 준비되어 있는가?

데이터 이행에 필요한 비용과 균형을 이루는 ‘기회’도 데이터의 잠재적 가치를 파악하는 한 가지 방법이다.

2. 데이터를 가치 있게 만드는 요인을 파악하라

데이터에 실제 몇 달러의 가치가 있는지 파악하기는 어렵겠지만, 데이터의 가치를 높이는 요소를 정의하기는 비교적 쉽다. 이것은 간단한 사고방정식으로 표현할 수 있다.

완전성(Completeness) + 유효성(Validity) = 품질(Quality)

품질(Quality) + 포맷(Format) = 유용성(Usability)

사용 가능한 데이터 + 데이터를 잘 사용할 수 있는 데이터 전문가 = 가치(Value)

데이터 프로젝트는 좋은 데이터 없이 진행될 수 없다. 데이터의 품질이 가치가 있을 만큼 높은가? 그 답은 수집한 데이터가 얼마나 완전한지에 어느 정도 달려있을 것이다. 데이터와 관련된 분야가 사라졌는가? 데이터의 품질은 정보가 얼마나 유효한지에 달려있다. 수집된 데이터의 출처가 믿을만한가? 데이터는 최신 데이터인가, 아니면 시간이 흘러서 유효성이 감소했는가? 산업과 부문의 기준에 따라 데이터를 수집하고 저장했는가?

데이터에 투자 가치가 있으려면 데이터가 사용 가능해야 한다. 이를 위해서는 데이터 전문가들이 데이터를 잘 사용하고 분석할 수 있게 하며, 그 결과물을 활용할 수 있는 비즈니스 리더들에게 데이터를 연결하는 시스템을 구축해야 한다.

3. ‘데이터 여정(data journey)’에서 당신의 위치를 확고히 하라

클라우드 컴퓨팅을 제대로 활용하기 위해 기업이 위치를 잡는 것은 하나의 ‘여정’이라고 할 수 있다. 그리고 이와 같은 생각이 데이터에도 적용될 수 있다.

데이터 전략과 관련해 기업이 내리는 결정들은 대체로 ‘데이터 여정(data journey)’에서 기업이 어디쯤에 위치하는지에 달려있다. 데이터 여정에서 얼마나 멀리 와있는가? 기업들이 자신들의 위치를 정확히 파악하는 데는 평가 도구들과 청사진이 도움을 줄 수 있다. 이러한 평가는 기업의 기술 스택에 어떤 도구가 있는지 파악하는 수준을 넘어서야 할 것이다. 거버넌스와 생애주기 관리, 보안, 데이터 수집 및 처리, 데이터 아키텍처(data architecture), 소비와 분산, 데이터 지식, 데이터를 통한 이익 창출 등을 고려해서 기업 내에서 데이터가 어떻게 다양한 방식으로 처리되는지 살펴보아야 한다.

소비와 분산의 경우, 비즈니스 인텔리전스부터 스트리밍 데이터(streaming data)와 데이터 분석에 관한 셀프서비스 애플리케이션까지 다양한 서비스를 적용하는 조직의 능력을 통해 측정할 수 있다. 기업이 개인의 데이터 사용에 대한 지원을 시행했는가? 기업이 개별 API(애플리케이션 프로그래밍 인터페이스)를 지원하고 있는가? 데이터 지식을 범주별로 살펴봤을 때 기업의 데이터 사전과 비즈니스 용어, 데이터 카탈로그, 마스터 데이터 관리(master data management) 계획이 얼마나 발전되어 있는가?

각 역량에 점수를 매기면 데이터 준비성 측면에서 기업의 강점과 약점이 드러난다. 기업이 필요하거나 원하는 위치에 얼마나 근접했는지 깨닫고 싶다면 이러한 내용을 자세히 검토해야 할 것이다.

4. 다양한 출처에서 수집한 데이터를 다루는 법을 배워라

데이터는 기업 내부와 IoT 장치, 영상 감시 시스템, 협력사, 고객, 소셜미디어, 인터넷 등 모든 방향에서 기업으로 흘러 들어오고 있다. 수백 제타바이트(zettabyte)에 이르는 전 세계 데이터는 편리하고 생산적인 사용을 위해 선택적으로 관리되고, 보호되고, 최적화되어야 할 것이다.

이것은 데이터 수집과 데이터 거버넌스를 위한 시스템을 개발해본 적이 없는 기업들에게 어려운 문제이다. 데이터의 출처와 상관없이 더 큰 이익을 위해 사용할 수 있도록 데이터를 표준화할 메커니즘이 필요하다.

각기 다른 기업과 국가는 어떤 정보를 어떻게 공유할 수 있을지에 관해 서로 다른 규칙을 설정한다. 같은 기업 내에 있는 개별 부서들도 특정 데이터 세트가 따라야 하는 경로를 지정하는 기업의 거버넌스 규칙을 위반할 수 있다. 그래서 데이터 접근과 분산 정책을 강제로 시행하는 것이다. 이러한 데이터 기회를 붙잡기 위해 기업들은 새로운 데이터 세트를 발견하는 경로를 구축하고, 그러한 경로를 관리하기 위한 거버넌스 규칙을 도입해야 한다.

제조업에서 공급망에 속한 기업들은 자신들의 부품과 공급 업체의 품질을 측정한다. 기업들이 사용하는 기계와 로봇 기술은 공급 업체 소유인 경우가 많다. 공급 업체들은 자신들의 사업상 이익을 보호하는 데이터 사용 권리를 누가 가지고 있는지 알아보기 위해 계약을 맺고 싶어 할 수 있으므로, 제조 업체들은 협력사와 공급 업체들과의 데이터 공유 요건을 정의해야 한다.

5. 최고 경영진의 지지를 이끌어내라

데이터는 기업 내의 많은 이들에게 이익을 주며, 데이터에 영향을 받는 이들은 데이터 가치 평가 과정에서 자신들이 원하는 특정한 측면을 위해 움직이게 된다. 예를 들어, 데이터 과학자들은 고성능이며 사용하기 쉬운 기술을 원하며, LOB(Line-of-business) 리더들은 더 빠르고 더 나은 통찰을 얻고자 한다. 그리고 그 피라미드의 정상에는 데이터를 통한 비즈니스 가치 창출을 우선시하는 최고 경영진이 있다.

전체적인 데이터 전략을 위해서는 최고 경영진을 동참시키는 것이 중요하다. 그렇게 하지 못하면 차질이 생길 수 있다. 데이터에서 최대 가치를 끌어내려면 조직은 새로운 기술을 보유한 직원을 고용해야 하며, 기업 문화를 조정하고, 오래된 과정을 재설계하고, 낡은 데이터 플랫폼을 다시 구축해야 한다. 이런 대대적인 전환 프로젝트는 최고 경영진의 승인 없이는 이루어질 수 없다.

최고 경영진은 점점 더 기업의 데이터 사용 확장에 마음을 열고 있다. IDC 보고서 ‘시장 분석 전망: 전 세계 데이터 통합과 인텔리전스 소프트웨어 2021(Market Analysis Perspective: Worldwide Data Integration and Intelligence Software, 2021)’에 따르면, 이사회 차원에서 고객 참여 다음으로 가장 관심이 높은 전략 분야는 경쟁력을 유지하고 변화하는 시장 상황을 활용하기 위해 데이터를 이용해 의사결정을 개선하는 것이다. 같은 보고서에서 경영진의 83%는 코로나19 팬데믹 이전보다 데이터 중심 조직이 될 필요성이 커졌다고 지적했다.

최고 경영진이 동참하고 있음을 기업이 어떻게 보장할 수 있을까? 당신이 최고 경영자 직함이 없는 이해당사자라면, 의사 결정 과정을 통제하는 리더에게 메시지를 전달할 경영진을 찾기 위해 동료들과 협력해야 할 것이다. 데이터는 장기적으로 기업의 성공을 결정할 수 있는 전략적 자산이지만, 고위 경영진의 도움 없이 데이터를 활용할 수는 없을 것이다.

6. 신뢰할 수 있는 데이터를 확보하라

AI가 삶의 거의 모든 영역으로 확장되면서 변질되거나 결함이 있는 AI 사용으로 인한 위험이 기하급수적으로 증가하고 있다. 이러한 상황에서는 AI 모델을 학습시키는 데 사용하는 데이터의 품질이 중요하다. 데이터가 어떻게 생산됐는가? 데이터가 오류가 있는 센서를 기반으로 했는가? 데이터 세트에 편향된 데이터가 포함됐는가? 선정된 데이터를 통계적으로 유효한 데이터 세트 대신에 하나의 출처에서만 가져왔는가?

믿을 수 있는 AI를 만들기 위해서는 투명하고, 믿을만하고, 편향되어 있지 않으며, 탄탄한 모델을 구축하는 데 사용할 수 있는 믿을만한 데이터를 확보해야 한다. AI 모델의 교육 과정을 파악하고 있는 상황에서 모델이 잘못된 결과를 내고 있다고 의심된다면, 과정을 멈추고 모델을 다시 교육시킬 수 있다. 또는, 누군가가 모델에 대해 의문을 가질 때, 모델이 왜 그런 결정을 내렸는지 설명할 수도 있다. 그러나 이를 위해서는 참조할 수 있는 깨끗하고 검증된 데이터가 필요하다.

정부는 정책 감시자들로부터 정부가 AI를 어떻게 사용하고 있는지 밝히고, 정부의 분석이 편향된 데이터를 기반으로 하고 있지는 않은지 증명하라는 요청을 받을 때가 많다. 정부가 사용하는 알고리즘의 타당성과 관련하여, 법정에서 선고할 때나, 복지 혜택 청구 같은 정부 활동에 대한 결정을 내릴 때 머신러닝에 의존하는 시스템에 대해 논쟁이 벌어지기도 했다.

모델의 학습은 단계별로 진행된다. 일단 데이터를 기반으로 모델을 구축한다. 그러고 나서 모델을 테스트하고, 다시 테스트하기 위해 추가 데이터를 수집한다. 테스트를 통과하면 모델은 조금 더 강력한 생산 모델로 만들어진다. 모델에 철저한 검토가 필요한 경우 이러한 과정은 더 많은 데이터를 추가하고, 조작하고, 구축하는 방식으로 계속 진행된다.

고품질 데이터를 보장하고 효율적으로 공유하기 위한 종단간 시스템(end-to-end system)의 부재가 AI 도입이 늦어지는 데 영향을 주고 있다. IDC에 따르면, 조사 응답자의 52%가 데이터 품질, 데이터양, 데이터 접근 문제가 AI 사용을 지연시키고 있다고 답했다.

7. 메타데이터 기회를 포착하라

메타데이터(Metadata)는 간단하게 말해서 ‘다른 데이터에 대한 정보를 제공하는 데이터’로 정의할 수 있다. 메타데이터는 사용자들이 정보의 특성을 이해해서 미래에 그 데이터로 무엇을 할 수 있을지 결정하는 맥락을 데이터에 제공하는 것이다.

메타데이터 표준은 일반적으로 틈새시장, 천문학적인 카탈로그 같은 특정 산업의 애플리케이션, 또는 XML 파일 같은 데이터 유형에 사용된다. 그러나 일반적인 방식으로 데이터를 정의할 수 있을 뿐만 아니라 데이터 이동 과정에서 유용한 데이터 아티팩트(data artifact)에 태그할 수 있는 더 강력한 메타데이터 프레임워크를 옹호하는 주장도 있다. 이러한 데이터는 어디서 왔는가? 누가 데이터를 살펴봤는가? 누가 사용했는가? 무엇을 위해 사용되었는가? 누가 어떤 데이터 세트를 추가했는가? 데이터가 검증되었는가? 특정 상황에서 사용이 금지됐는가?

이런 종류의 메타데이터 메커니즘을 개발하려면 특정한 데이터를 보고 건드린 사람들에게 개방적인 기술 계층 필요하다. 또한 데이터를 전략적으로, 투명하게 공유할 수 있는 것의 가치를 알아보는 광범위한 이해관계자 집단의 헌신도 필요하다.

추가로 개방적인 메타데이터 계층을 만드는 것은, 데이터 접근과 거버넌스, 신뢰, 계보에 필수적인 핵심 데이터 속성들을 투명하게 공유할 수 있게 하면서 데이터에 대한 접근을 ‘민주화’하는 방향으로 나아가는 중요한 단계가 될 것이다. 데이터 공간에 대한 휴렛 팩커드 엔터프라이즈(Hewlett Packard Enterprise)의 접근 방식은 다양한 데이터 세트 공유와 관련된 복잡한 문제들을 제거하는 보편적인 메타데이터 표준을 가능하게 하는 것이다.

8. 문화의 중요성을 포용하라

조직은 자신들이 가꾸고 있는 자원을 최대로 활용하고 있음을 확실히 하고 싶어 한다. 그렇게 하기 위해서는 정보 공유를 위한 모범 경영 사례를 장려하는 문화를 만들 필요가 있다.

부서 간 소통을 어렵게 하는 데이터 사일로(silo)를 가지고 있는가? 적절한 시기에 적절한 출처로 정보를 전파하는 데 방해가 되는 문화적 장벽이 조직 내부에 존재하는가? 다른 부서들이 자체적으로 데이터를 소유하고 조직 내 다른 부서와 공유하는 것을 꺼리는가? 개인들이 가치 있는 데이터를 쌓아놓고 있는가? 마찰 없는 데이터 공유를 장려할 경로와 절차를 수립했는가? 비즈니스 이해당사자들에게 데이터 요구뿐만 아니라 관행에 대해 질문하고 공유할 능력을 부여하면서, 데이터에 대한 접근을 개방했는가?

만약 이러한 요인 중 어느 하나라도 자유로운 데이터 교환 흐름을 막고 있다면, 그 기업은 사람, 과정, 기술의 필요성에 초점을 맞춘 변화 관리 평가를 시행해야 한다.

9. 모든 것을 개방하되 누구도 믿지 마라

비즈니스의 모든 측면에서, 조직은 자원의 자유롭고 공개적인 공유와 엄격하게 통제되는 보안이라는 상충하는 개념 사이에서 균형을 유지할 때가 많다. 이러한 균형은 특히 데이터를 다룰 때 중요하다.

데이터는 공유되어야 하지만 많은 데이터 생산자들은 데이터 공유에 불편함을 느낀다. 데이터에 대한 통제력을 잃거나, 데이터가 자신들에게 해가 되는 방식으로 사용되거나, 데이터가 부적절한 방식으로 변하거나 사용될까 봐 두려워하기 때문이다.

보안은 최우선 순위가 되어야 한다. 데이터는 다양한 출처에서 수집된다. 어떤 것들은 통제할 수 있는 출처지만, 그렇지 않은 것들도 있다. 그리고 수많은 손을 거쳐서 들어온다. 그 말은 데이터를 둘러싼 보안 정책이 처리 과정의 모든 단계에서 ‘제로 트러스트(zero-trust)’ 모델로 설계될 필요가 있다는 뜻이다. 신뢰는 인프라와 운영 시스템부터 그 시스템의 워크로드(workload)에 이르기까지 모든 단계에서 전체 ‘기술 스택’을 통해 구축되어야 한다.

10. 완전히 기능하는 데이터 서비스 파이프라인을 만들어라

시스템에서 데이터를 이동하려면 많은 단계가 필요하다. 예를 들어, 데이터를 클라우드로 이동하고, 재포맷하고, 다른 데이터소스와 합치는 등의 단계가 포함된다. 그리고 이러한 각각의 단계에는 일반적으로 별개의 소프트웨어가 필요하다.

데이터 파이프라인을 자동화하는 것은 ‘데이터 여정’에서 가장 중요한 부분이다. 완전히 자동화된 데이터 파이프라인을 통해 기업은 데이터를 추출해서 사용 가능한 형태로 변형하고 다른 소스와 통합할 수 있다.

데이터 파이프라인은 이 모든 단계를 전부 지칭하며, 그 역할은 모든 데이터에 이러한 단계들이 믿을만한 방식으로 진행될 수 있도록 보장하는 것이다. 이러한 과정들은 자동화되어야 하지만, 대부분의 기업들에는 시스템을 유지하고, 오류를 고치고, 기업의 변화하는 요구에 따라 시스템을 업데이트하기 위해 적어도 한두 명의 엔지니어가 필요하다.

오늘 ‘데이터 여정’을 시작하라

기업이 데이터를 얼마나 잘 활용하는지가 앞으로 몇 년 동안 기업의 성공 여부를 결정할 것이다. 콘스텔레이션 리서치(Constellation Research)는 현재 포춘 500대 기업 중 90%가 2050년까지 합병되거나 인수되거나 파산할 것이라고 예측한다. 따라서 지금 시작하지 않으면 뒤처질 것이다. 시간은 계속 흘러가고 있다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.