A desert robot depicts AI’s vast opportunities

인공지능의 엄청난 가능성을 보여주는 사막 로봇

오픈소스를 활용한 플랫폼을 통해 AI에 대한 접근성이 향상되고 있다. 또한 이제 한 가지 정보가 아니라 이미지와 텍스트 등 서로 다른 유형의 데이터를 통해 학습하며 데이터들의 관련성을 이해하는 AI도 등장하고 있다. 점점 발전하고 있는 AI 기술의 발전 방향을 알아보자.

홍즈 가오(Hongshi Gao)는 어렸을 때 가족과 함께 중국 북부 중서부 간쑤성에서 살았다. 간쑤성 옆에 ‘텅거리사막(Tengger Desert)’이 있는 탓에 어린 시절을 회상할 때면 늘 집 밖에서 끊임없이 먼지를 싣고 불어오던 바람에 대한 기억이 떠오른다. 연중 내내 외출하면 순식간에 주머니, 부츠, 입 안 등 모든 곳이 모래로 가득 채워지곤 했었다. 사막의 단조로운 생활에 대한 기억은 오랫동안 그의 머릿속에서 맴돌았고, 결국 그는 대학에 입학해 사막에 나무를 심는 기계를 만들 생각을 하게 되었다.

지금까지 우리는 주로 값비싼 인간의 노동력에 의지하여 사막화, 즉 자연적이나 인위적 요인에 의해 기존에 사막이 아니던 곳이 점차 사막으로 변해가는 현상을 막기 위해 애써왔다. 그러나 홍즈는 딥러닝(deep learning) 기술을 적용해 식목(植木) 과정을 자동화하는 로봇을 설계했다. 객체 탐지(object detection) 기술을 이용해 최적의 식목 장소를 찾아내는 일부터 묘목을 심고 물을 주는 일까지를 모두 처리할 수 있는 로봇이다.

홍즈는 인공지능(AI) 분야에서 쌓은 경험은 없지만, 중국 최대 포털인 바이두(Baidu)의 딥러닝 플랫폼 ‘패들패들(PaddlePaddle)’을 이용해 다양한 모듈을 접목하면서 시중에 나와 있는 비슷한 기계보다 성능이 월등한 객체 탐지 로봇을 제작할 수 있었다. 홍즈와 친구들이 최종 완성품 로봇을 만들 때까지 1년도 채 걸리지 않았다.

객체 탐지란 이미지나 동영상에서 사람이나 동물, 차량 등 의미 있는 객체의 종류와 위치를 정확하게 찾아내는 컴퓨터 비전 기술이다.

높아진 AI에 대한 접근성

홍즈가 제작한 ‘사막 로봇’은 AI에 대한 접근성이 개선되고 있음을 확실히 보여주는 사례에 해당한다.

오늘날 400만 명이 넘는 개발자들이 바이두의 오픈소스 AI 기술을 이용해 자신들이 속한 공동체 사람들의 삶을 개선하는 솔루션을 개발하고 있다. 개발자 중에는 AI 분야에 대한 전문적인 지식이 거의 내지 심지어 전혀 없는 사람도 많다. 리옌훙(영어명 로빈 리(Robin Li)) 바이두 최고경영자(CEO)는 지난해 말 열린 AI 개발자 콘퍼런스 ‘바이두 크리에이트 2021(Baidu Create 2021)’에서 “향후 10년 내에 AI는 우리 사회 모든 부분에서 일어나는 변화의 원천이 되고, 산업과 기업의 운영 방식을 바꿔놓고, 우리를 디지털 세상의 더 깊은 곳까지 이끌면서 인간의 경험을 확장시킬 것”이라고 말했다.

AI의 진화가 새로운 장으로 접어들면서 왕 하이펑 바이두 최고기술책임자는 AI 업계의 미래를 뒷받침하는 두 가지 핵심 트렌드를 거론했다. 하나는 AI 기술이 계속해서 성숙하면서 기술적으로 더욱 복잡해질 것이라는 점이다. 두 번째는 이와 동시에 AI 개발 비용과 진입 장벽이 낮아지면서 대규모로 AI 기반 솔루션을 개발하는 기업과 AI 세상을 탐구하는 소프트웨어 개발자들 모두에게 도움이 될 것이란 점이다.

딥러닝을 통한 지식과 데이터의 결합

딥러닝을 이용해 지식과 데이터를 통합하면서 AI 모델의 효율성과 정확성이 상당히 개선되었다. 2011년 이후로 바이두의 AI 인프라는 새 정보를 수집하여 대규모 지식그래프(knowledge graph)에 통합했다. 현재 이 지식그래프에는 일상의 모든 부분뿐만 아니라 제조, 제약, 법, 금융서비스, 기술, 미디어와 엔터테인먼트 등 특정 산업별 주제까지 아우르는 5,500억 개 이상의 ‘사실(fact)’이 들어있다.

이 지식그래프와 엄청난 데이터 포인트(data point)들은 바이두가 새로 출시한 사전학습 언어모델 ‘PCL-바이두 원신(PCL-BAIDU Wensin, ERINIE 3.0 Titan 버전)을 구성하는 요소이기도 하다. PCL-바이두 원신은 독해력, 텍스트 분류, 의미 유사성 파악 등 60가지 자연어 처리(natural language processing, NLP) 작업에서 지식그래프가 없는 다른 언어모델들보다 뛰어난 성능을 보인다.

다양한 유형의 데이터를 이용한 학습

교차모달 학습(cross-modal learning)은 기계의 인지적 이해력을 개선하고 기계가 인간의 적응 행동을 더 잘 모방하게 하려는 AI의 새로운 연구 분야이다. 이 분야의 예로는 텍스트 설명만으로 이미지를 생성할 수 있도록 모델을 학습시키는 자동 텍스트-이미지 합성(automatic text-to-image synthesis), 시각 콘텐츠를 이해하여 그것을 단어로 표현하도록 구축된 알고리즘 등이 있다. 이러한 작업에서 어려운 부분은 기계가 이미지나 텍스트처럼 다른 유형의 데이터를 의미적으로 연결하고 그러한 데이터의 상호의존성을 이해하게 하는 것이다.

AI의 다음 단계는 컴퓨터 비전(computer vision), 음성인식(speech recognition), 자연어 처리 같은 AI 기술을 융합해 멀티모달 시스템(multi-modal system)을 구축하는 것이다.

이를 위해 바이두는 언어와 시각적 의미를 연결하는 NLP 모델의 다른 버전을 출시했다. 이러한 모델을 실생활에 적용한 예로는 인간처럼 주변 환경을 인지하여 고객 지원 서비스를 제공하는 디지털 아바타, 생성된 예술작품에 대한 이해를 바탕으로 그림을 ‘그리고’ 시를 쓰는 알고리즘 등이 있다.

이러한 기술을 활용해서 만든 더 창의적이고 영향력이 강한 결과물들도 있다. 패들패들 플랫폼에서는 시각 정보와 언어의 의미를 연결하는 모델도 활용할 수 있는데, 이를 통해 중국의 석사과정 학생들이 윈난성과 광시성 같은 지역에서 소멸 위기에 처한 언어들을 중국어 간체자로 더 쉽게 번역하여 보존할 수 있게 하는 사전을 만들기도 했다.

AI 소프트웨어와 하드웨어의 통합, 산업에서의 활용

AI 시스템이 점점 더 복잡해지고 있는 산업별 문제들을 해결하는 데 활용되면서 소프트웨어(딥러닝 프레임워크)와 하드웨어(AI칩)를 따로따로 최적화하는 것이 아니라, 컴퓨팅 파워, 전력 소모량, 레이턴시 같은 요인들을 고려하여 함께 최적화하는 것이 점점 더 중요해지고 있다. 

바이두의 AI 인프라 플랫폼에서는 개발자들이 딥러닝 기능을 활용해 특정 목적에 맞춘 새로운 애플리케이션들을 제작하면서 엄청난 혁신이 일어나고 있다. 패들패들 플랫폼은 양자컴퓨팅, 생명과학, 계산유체역학, 분자동역학같이 더 새로운 기술을 활용한 AI 애플리케이션을 지원하는 API(애플리케이션 프로그래밍 인터페이스)를 제공한다.

AI는 현실에서도 활용되고 있다. 예를 들어 중국 산둥성에 있는 서우광이라는 작은 도시에서는 과일 및 채소 산업의 효율성을 증대시키는 데 AI를 활용하고 있다. 채소밭 수십 개를 관리하는 데 이제는 관리자 두 명과 앱 하나만 있으면 된다.

이 부분에 주목해야 한다고 하면서 왕은 “AI 기술이 점점 복잡해지고 있는데도 오픈소스 딥러닝 플랫폼은 운영체제처럼 프로세서와 애플리케이션을 통합하여 비즈니스에 AI를 활용하고자 하는 기업과 개인들의 진입 장벽을 낮추고 있다”고 설명했다.

개발자와 최종 사용자의 진입 장벽 해소

기술 측면에서 PCL-바이두 원신처럼 사전학습 대형 언어모델은 기존 모델이 직면했던 많은 문제들을 해결해줬다. 예를 들어, 이러한 범용모델은 텍스트 분류와 질의응답 같은 다양한 다운스트림 NLP 작업을 하나의 통합된 장소에서 실행하기 위한 기초를 마련하는 데 도움이 되었다. 과거에는 각각의 작업을 각기 다른 모델이 따로따로 해결해야 했다.

패들패들은 또한 개발자 친화적인 도구들도 제공한다. 예를 들어 범용모델을 조금 조정해서 특정 사용 목적에 맞게 맞추는 모델 압축 기술들도 그러한 도구에 포함된다. 패들패들은 대형에서 소형까지 공식적으로 지원되는 400개 이상의 산업용 라이브러리를 제공하며, 이러한 라이브러리는 범용모델 크기의 극히 일부에 불과하지만 성능은 비슷하기 때문에 모델 개발 및 운영 비용을 절감할 수 있다.

현재 바이두의 오픈소스 딥러닝 기술은 400만 명 이상의 AI 개발자들을 지원하고 있으며, 이들은 지금까지 총 47만 6,000개의 모델을 제작하여, 15만 7,000개의 기업과 기관이 AI가 주도하는 방식으로 변화하는 데 기여하고 있다. 위에서 언급했던 각종 사례들은 세상을 인간처럼 인식하는 데 한 발짝 더 다가서고 있는 음성인식, 컴퓨터 비전, 증강현실(AR) 및 가상현실(VR), 지식그래프, 사전학습 대형 언어모델 같은 기술을 통합하는 바이두 AI 인프라에서 일어나고 있는 혁신의 결과이다.

AI는 이미 놀라운 작업을 수행할 수 있을 정도로 발전했다. 최근 오픈한 메타버스 시랑(Metaverse XiRang)은 전 세계 참가자들이 자신들의 기기를 이용해 접속할 수 있게 하는 디지털 아바타를 탄생시킨 패들패들 플랫폼이 없었다면 가능하지 않았을 것이다. 그리고 양자컴퓨팅 같은 미래 기술들은 메타버스의 성능을 상당히 개선하는 데 도움을 줄 것이다. 이는 바이두가 제공하는 다양한 서비스가 서로 연결되어 있고 상호의존적이라는 사실을 보여준다.

몇 년 후면 AI는 인간 경험의 핵심에 다가가게 될 것이다. 그렇게 되면 증기기관, 전기, 인터넷이 이전 세대에 그랬던 것처럼, AI도 우리 사회에 엄청난 변화를 가져올 것이다. AI가 더 복잡해지면, 이전에는 이론적으로만 가능하다고 생각했던 사례들을 탐구할 자유가 늘어날 것이며, 그러면 홍즈 같은 개발자들은 예술가와 설계자로서 더 많은 일을 하게 될 것이다.

이 콘텐츠는 MIT 테크놀로지 리뷰 편집부에서 작성한 것이 아니라 바이두에서 제공한 것이다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.