How to overcome data shortage in AI projects

데이터가 부족하십니까? 데이터 창출하는 혁신적 방법

AI 도입을 추진하는 많은 기업들이 데이터 부족을 호소한다. 기업에게 필요한 데이터를 창출할 수는 없을까?

AI 기업들이 인공지능 도입에 있어서 가장 큰 제약사항으로 호소하는 것은 데이터의 부족이다. MIT 테크놀로지 리뷰에서 실시한 설문조사에 따르면 글로벌 AI 기업들의 48%는 활용가능한 데이터 확보에 어려움을 겪는 것으로 조사됐다. AI 경쟁력의 핵심은 데이터에 있다. 좋은 알고리즘을 마련했다 하더라도 모델 학습에 필요한 데이터가 충분치 않으면 기대하던 기능을 만들어내지 못한다. 따라서 데이터 확보는 AI 프로젝트를 성공적으로 추진하는 데 있어서 가장 중요한 일이다.

데이터와 관련해서 어떤 자세를 갖고 있는지 돌아볼 필요가 있다. 이를 위해 데이터 ‘확보’와 데이터 ‘창출’을 구분할 필요가 있다. 데이터 확보는 현재 우리 조직에서 데이터를 보유하고 있는지 여부가 중요한 소극적 접근이다. 데이터를 보유하고 있으면 AI 도입이 가능하고 보유하지 않으면 AI 도입이 어렵다고 인식한다. 반면 데이터 창출은 데이터 보유 여부가 중요치 않다. 현재 데이터 보유 여부와 상관없이 필요한 데이터를 적극적으로 또 전략적으로 창출하는 것이다. 한 가지 숙지해야 할 점은 필요한 데이터가 통째로 주어지는 경우는 없다는 것이다. 데이터는 주어지는 것이 아니라 혁신적 방식으로 필요한 데이터를 준비하기 위해 노력해야 하는 것이다. 물론, 사용자기반과 플랫폼을 갖춘 기업이야 데이터 확보가 수월하겠지만 대다수 기업은 현실적으로 데이터 확보에 어려움을 겪는 게 사실이다. 하지만 전략을 잘 세운다면 데이터를 창출하는 일은 의외로 간단할 수도 있다. 데이터를 창출하는 방법은 의외로 다양하다. 이를 크게 데이터적 접근, 알고리즘적 접근, 비즈니스모델적 접근으로 나누어 살펴본다.

데이터적 접근(Data driven approach)

먼저 데이터적 접근이다. 데이터 부족 문제를 데이터 레벨에서 해결하는 방법이다. 스타트업은 사용자기반이 없기 때문에 새로운 AI 제품을 출시해도 이를 학습시킬 데이터를 확보하기 어렵다. 하지만 최근에는 사용자기반이 없어도 데이터 생성을 지원하는 툴이 나왔다. 예를 들어 테스트.AI(Test.AI)는 출시를 준비하고 있는 애플리케이션의 데이터 요구사항을 제시하면, 인공지능 소프트웨어 로봇이 애플리케이션의 각 기능과 사용 흐름을 확인하고 사람처럼 직접 실행한다. 이를 통해 어플을 실행하는 동안 얻게 되는 사용 프로세스, 사용자경험, 퍼포먼스 데이터가 자동으로 생성된다. 로봇을 인간과 유사하게 설정할 수 있기 때문에 고품질의 학습데이터를 단기간에 확보할 수 있다.

데이터의 제약을 호소하는 기업이 많지만 사실 데이터가 전혀 없는 것은 아니다. 직원들이 작성하는 문서, 사용자의 방문 및 구매 이력, CCTV를 포함한 수많은 영상. AI 학습에 바로 이용할 수는 없지만 잘 다듬으면 요긴한 만들어낼 수 있는 자료가 의외로 많다. 이를 로데이터(raw data)라고 하는데, 이를 인공지능 학습에 이용할 수 있는 학습데이터로 자동 변환해주는 플랫폼도 있다. 예를 들어 스케일API(Scale API)는 인공지능 개발용 학습데이터를 생성해주는 플랫폼이다. 이 API로 로데이터를 입력하면 다양한 도구로 데이터를 검토하여 머신러닝의 학습에 활용할 수 있는 학습데이터로 변환해준다. 요구되는 기준데이터 사양의 95% 정확도로 정제된 데이터를 확보할 수 있게 해준다. 실제로 자율주행차처럼 로데이터가 많이 생성되고 학습데이터로의 변환이 필요한 영역에서 이러한 플랫폼의 수요가 많다. 리프트(Lyft), 보이지(Voyage) 등 자율주행차 업체가 이를 이용하고 있다.

한편, 사무실에 있는 수많은 종이 문서도 엄연한 잠재 데이터다. 도큐참(Docucharm) 같은 플랫폼은 광학문자인식(OCR) 기술을 이용해 종이 문서에 있는 텍스트를 AI 학습에 사용될 수 있는 데이터로 변환해준다. 회사 내에서 생산되는 수많은 문서가 유용한 빅데이터로 재탄생되도록 만들어주는 플랫폼이다. 도큐참의 API는 다양한 형태의 문서를 이해할 수 있으며, 오류 없이 필요한 정보를 추출한다. 이를 통해 AI 도입 기업은 데이터 확보에 드는 비용을 대폭 줄일 수 있다. 세무법인 트리뷰티(Tributi)나 금융기업 애스파이어(Aspire) 등 다양한 고객이 이용하고 있다.

도큐참을 이용하는 CUSTO
※ 출처: techcrunch.com

동영상이나 이미지를 다루는 업체라면 학습을 위한 데이터를 만들기 위해 각 동영상과 이미지에 태깅을 하는 게 큰 일일 수 있다. 태깅이란 분류 및 클러스터링 알고리즘의 학습에 용이하도록 동영상 혹은 이미지에 관련 정보를 입력하는 것이다. 방대한 동영상에 일일이 태깅을 하는 것은 매우 시간 소모적이고 비효율적이기 때문에 데이터화에 커다란 제약으로 작용한다. 만일 태깅을 자동으로 해줄 수 있다면 학습데이터를 훨씬 쉽게 생성할 수 있다. 이를 가능케 하는 자동 태깅 플랫폼 중 대표적인 예로 추치 AI(Chooch AI)를 들 수 있다. API를 통해 입력된 동영상/이미지의 프레임마다 등장사물, 사운드와 관련된 태그를 자동으로 달아 학습용 데이터로 만들어주는 플랫폼이다. 스마트글래스나 드론 카메라, 블랙박스, CCTV 등 모든 종류의 동영상 및 이미지 데이터를 학습데이터로 바꿀 수 있기 때문에 매우 유용하다. 이러한 플랫폼은 인공지능 앱 제작에 필수적인 고품질의 학습데이터를 효율적으로 생성할 수 있기 때문에 데이터를 확보하는 전략으로 고려해봄직하다.

사진에 대한 태깅 정보를 자동 추출하는 Chooch.AI
※ 출처: Chooch.AI

알고리즘적 접근 (Algorithm driven approach)

두번째는 알고리즘 접근으로 해결하는 방식이다. 머신러닝의 방식 중에서는 데이터에 의존하는 지도학습(Supervised learning)과 비지도학습(Unsupervised learning)이 많이 쓰이지만 데이터에 의존하지 않는 강화학습(Reinforcement learning)도 있다. 강화학습의 작동 원리는 보상 시스템이다. 높은 성과로 연결되는 행위에 대해 보상을 해서 좋은 성과를 유도하는 방식이다. 강화학습은 상태전이확률, 상태와 행동의 가치계산, 시간차학습 등의 테크닉을 통해 보상을 통한 고성과 유도 메커니즘 등 기술적인 원리가 내재되어 있지만, 핵심은 에러를 줄이고 보상을 극대화하는 방향으로 처리를 하는 것이다.

강화학습은 데이터가 필요 없지만 정형화된 상황에 잘 적용된다. 바둑처럼 규칙에 의해 모든 이벤트가 조절되는 상황에서 강화학습을 사용하는 게 용이하다. 하지만 현실세계에서는 수많은 변수가 존재하고 예측하기 어려운 상황이 발생한다. 이런 상황에서 규칙이라는 것을 제시하는 것 자체가 어렵고 고려해야 할 변수가 너무 다양하기 때문에 강화학습을 적용하는 것은 무리가 될 수 있다. 그럼에도 불구하고 강화학습은 여러 분야에서 활용되고 있다. 대표적인 로보틱스 기업인 보스턴 다이내믹스에서 아틀라스 (Atlas)라는 로봇에 강화학습이 적용됐다. 금융권에서도 JP모건 등 기업은 트레이딩 작업에 강화학습을 적용했다. 주식을 사고 파는 의사결정을 강화학습을 통해 고도화했다. 자율주행에도 강화학습이 이용된다. 운전할 때 발생하는 상황은 너무나 다양하기 때문에 사람이 일일이 컴퓨터에게 지도하는 게 불가능하다. 자율주행 시스템은 강화학습을 하면서 어떤 상황에서든 적절한 의사결정을 할 수 있도록 훈련 받는다.

최근 주목받는 생성 알고리즘인 생성적 적대신경망(Gene Adversarial Network) 역시 알고리즘적으로 데이터 부재를 극복하는 사례다. 이 알고리즘은 데이터를 주입해 학습하는 지도학습에서 벗어나 시스템이 스스로 답을 찾는 방식이다. 서로 대립되는 두 모델이 상호경쟁을 통해 성능을 개선시키는 것이다. 이 역시 데이터에 대한 의존도를 최소화하며 고품질의 생성을 할 수 있는 방법이다.

비즈니스모델적 접근(Biz model driven approach)

세번째는 비즈니스모델적 접근이다. 데이터가 나오지 않는 산업에서 창조적 비즈니스모델을 이용해 데이터 창출을 할 수 있다. 이를 잘 보여주는 것은 인키트(Inkitt)라는 독일 출판사다. 출판시장은 AI 학습에 활용할만한 데이터가 마땅히 존재하지 않는 분야다. 대부분 출판사는 데이터에 기반한 AI 고도화를 고려하지 않고 있다. 하지만 인키트는 업계의 상식을 깨는 방법으로 데이터를 창출한다. 인키트는 출간을 하기 전에 칼럼 분량의 짧은 스토리를 독자들에게 연재 공유한다. 독자들이 글을 접하는 순간부터 일어나는 모든 일들은 데이터가 된다. 우선 글을 본 것도 중요한 데이터이고, 보지 않은 것도 중요한 인사이트를 담은 데이터다. 100만명 넘는 회원들이 연재되는 각각의 글에 몇 분 동안 머물렀는지, 언제 읽었는지, 밤을 샜는지, 내용이나 문법에 대한 피드백 등이 데이터로 기록된다. AI 알고리즘은 이러한 데이터를 토대로, 이를 책으로 출간할 경우 흥행 가능성을 예측한다. 이러한 분석을 바탕으로 흥행 가능성이 높은 책들만 출간 결정을 내리는 것이다. 흥행이 보장된 똘똘한 선수들만 출전시키니 베스트셀러 되기가 쉬워지는 것이다. 실제로 이 출판사의 베스트셀러의 비율은 전체 출간 도서의 90%가 넘는다.

커피숍도 담대한 전략을 통해 데이터 창출을 한다. 스타벅스는 보다 심층적인 고객 데이터를 확보하기 위해 ‘디지털 플라이휠(Digital Flywheel)’이라는 디지털 서비스를 활용한다. 이 서비스를 통해 스타벅스는 ‘리워드’, ‘개인 맞춤화’, ‘결제’, ‘주문’ 등 다양한 디지털 서비스를 모바일 기기를 통해 제공하는 한편, 고객의 디테일한 활동 데이터를 수집한다. 사람들의 커피 주문 추이, 결제 방식, 취소 경향 등에 대한 정보는 인공지능을 학습시키는 귀중한 데이터가 된다.

디지털 플라이휠을 통해 서비스를 고도화 하는 스타벅스
※출처: 스타벅스

테슬라 역시 데이터를 창출한 기업이다. 테슬라는 고객의 자동차 속 시간뿐만이 아니라 모든 일상을 섭렵하는 서비스를 개발하고자 했다. 모빌리티 회사로서 차량과 관련한 데이터는 수집에 문제가 없다. 하지만 사람들의 집안, 회사, 학교 등 일상 속 데이터는 얻지 못했다. 이러한 한계를 극복하기 위하여 엑스플로라(XPLORA)와 협력해 스마트워치를 개발했다. 스마트워치를 통해 고객의 일상적 데이터를 확보하고 이를 통해 모빌리티 서비스를 일상과 통합할 수 있게 된 것이다.

테슬라, XPLORA와 협력해 스마트워치 개발
※출처: electrek

이렇게 데이터를 창출할 수 있는 방법은 다양하다. 데이터를 얻기 위해서는 보다 과감할 필요가 있다. 어떤 기업도 원하는 모든 데이터를 자동적으로 얻는 경우는 없다. 원하는 성과를 얻기 위해 필요한 데이터를 얻기 위한 전략과 노력이 필요하다. 데이터 경쟁력이 AI 경쟁력이다. 데이터 부족을 호소하기 전에 데이터 창출 전략을 고민해보자.

※ 정두희 MIT 테크놀로지 리뷰 코리아 편집장이며, 한동대학교 ICT창업학부 교수다. AI 컨설팅 기업인 임팩티브AI의 대표 파트너를 맡아 국내 기업들의 성공적인 AI 도입을 돕고 있다. <한권으로 끝내는 AI 비즈니스 모델>, <3년후 AI 초격차 시대가 온다>, <TQ 기술지능> 등을 저술했다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.