제이슨 메이즈 구글 웹 AI 리드(좌)와 타일러 멀렌 구글 미디어파이프 웹 테크니컬 리드

MIT TR · 인공지능

[해외 전문가 특별 칼럼] ② 화상회의부터 공장 자동화까지, 웹 AI가 산업 현장을 바꾸고 있다

브라우저에서 직접 실행되는 AI가 이미 다양한 산업 현장에서 혁신을 만들어내고 있다. 비용 절감과 프라이버시 보호라는 명확한 이점 때문이다.

2025년 12월 18일

웹 AI는 더 이상 실험실의 개념이 아니다. 이미 화상회의, 의료, 제조, 소매에 이르기까지 다양한 산업 현장에서 실질적인 가치를 창출하고 있다. 대표적으로 화상회의 플랫폼 구글 미트(Google Meet)는 웹 AI로 연간 20억 달러 이상의 서버 비용을 절감하고, 칠레의 연어 공장은 프라이버시를 지키며 생산 라인을 모니터링한다. 글로벌 화장품 기업 로레알(L’Oréal)은 고객이 립스틱을 가상으로 체험할 수 있게 하고, 브라질의 한 소매업체는 인터넷 없이도 재고를 관리한다. 웹 AI의 핵심 장점인 비용 제로, 오프라인 작동, 프라이버시 보호는 실제 비즈니스 문제를 해결하고 있다.

이 특별 기고는 AI 강국을 꿈꾸는 한국과 한국 독자들을 위해서 구글 웹 AI의 리더 제이슨 메이즈와 미디어파이프 웹(Mediapipe Web) 창시자 타일러 멀린이 작성했다.

화상회의로 연간 20억 달러를 아끼다

코로나19 이후 화상회의는 일상이 됐다. 대부분의 서비스가 브라우저 기반으로 제공되면서, 주요 업체들은 배경 흐림, 노이즈 제거, 실시간 자막 같은 고급 기능을 웹 AI로 구현하기 시작했다.

구글 미트 같은 화상회의 서비스는 겉보기엔 단순해 보이지만, 그 뒤에서 돌아가는 계산 규모가 상상을 초월다. 예를 들어 화면 뒤 배경을 흐리게 만드는 기능 하나만 살펴봐도 그렇다.

화상회의 영상은 사실 연속된 이미지들을 매우 빠르게 처리하는 방식으로 작동한다. 평균 30분짜리 회의에서 영상이 1초에 30장의 이미지(프레임)로 나뉘어 처리된다고 가정하면, 회의 하나당 AI가 분석해야 할 이미지 수는 약 5만 4,000만 장에 이른다. 이런 회의가 하루에 100만 번 열린다면, 하루 동안 처리해야 할 이미지 수는 약 560억 장에 달한다.

이 모든 이미지를 클라우드 서버에서 AI로 처리한다고 가정해 보자. 이미지 한 장을 처리하는 데 드는 비용이 0.0001센트처럼 아주 미미해 보이더라도, 이런 연산이 하루 수십억 번 반복되면 비용은 급격히 불어난다. 이렇게 계산하면 단순히 배경을 흐리게 만드는 기능 하나만으로도 연간 20억 달러가 넘는 비용이 발생한다.

하지만 웹 AI를 활용하면 상황은 완전히 달라진다. 영상 처리를 클라우드 서버가 아니라 사용자의 노트북이나 스마트폰에서 직접 수행하기 때문이다. 이 경우 서버가 대신 계산할 필요가 없어지면서 막대한 추론 비용 자체가 사실상 사라진다.

의료 현장이 웹 AI를 선택한 이유

의료 분야가 웹 AI에 주목하는 이유는 세 가지다. 첫째, 별도 앱 설치가 필요 없고, 둘째, 오프라인에서도 작동하며, 셋째, 환자 데이터가 외부로 전송되지 않는다는 점이다.

미국의 헬스케어 스타트업인 인클루드헬스(IncludeHealth)는 웹 AI 기반 원격 물리치료 서비스를 제공한다. 환자는 노트북이나 태블릿의 일반 웹캠만으로 집에서 치료를 받는다. 최신 자세 추정 모델이 브라우저에서 실행되며 관절 가동 범위와 회복 진행 상황을 실시간으로 파악한다. 민감한 환자 영상이 서버로 전송되지 않기 때문에 프라이버시도 보장된다.

제약 분야에서도 혁신이 일어나고 있다. 제약 유통 기업 카디널 헬스(Cardinal Health)는 약병에 정확한 수량의 알약을 담기 위한 계수 작업에 웹 AI를 활용한다. 카메라로 촬영한 알약을 브라우저의 컴퓨터 비전 AI가 실시간으로 파악해 서버 없이 현장에서 즉시 처리한다. 알약 계수는 단순하지만 상당히 시간이 걸리는 작업이다. 브라우저에서 실행되는 객체 탐지 모델을 활용하면 기존 장비로도 처방전 조제 속도를 크게 높일 수 있다.

MRI·CT 이미지에서 뇌의 각 영역(대뇌피질, 해마 등)을 자동으로 구분해 종양·출혈 위치를 파악하는 뇌 분할 모델도 브라우저에서 직접 실행된다. 의료진의 일상 업무를 더 효율적으로 수행할 수 있도록 돕는 도구들이 계속 개발되고 있다. 미래에는 로컬 브라우저 기반 RAG(검색 증강 생성, Retrieval-Augmented Generation)가 의사의 하드 드라이브에 저장된 환자 기록을 검색해 수백 페이지의 의료 기록에서 관련 정보를 즉시 찾아낼 수 있을 것이다. 해당 서비스는 오프라인 환경이나 통신 인프라가 열악한 지역에서도 작동한다.

보조 기술의 새로운 가능성

생성형 AI는 WebGPU나 WebNN을 통해 클라이언트 측에서 빠르게 실행될 수 있다. 자바스크립트(JavaScript) 개발자들이 고급 모델을 실제 사용 사례에 적용하기 시작하는 지금이 여정의 출발점이다.

이미 결과가 나타나고 있다. ‘Ask my PDF’ 같은 데모는 브라우저를 통해 로컬에서 오프라인 문서와 대화하며 필요한 답변을 빠르게 얻을 수 있게 해준다. 2025년은 웹 개발자들이 텍스트·이미지·음성을 동시에 이해하는 AI와 스스로 판단하고 작업을 실행하는 AI 에이전트를 직접 구현한 해였다. 이런 기술이 자바스크립트 라이브러리로 제공되면서 일반 개발자도 쉽게 활용할 수 있게 됐다. 이는 전 세계 수십억 개 웹사이트에 확산되며 웹 규모를 생각하면 인터넷에 놀라운 혁신을 가져올 수 있다.

접근성의 새로운 지평

웹 AI는 장애인 접근성도 개선했다. 시각장애인용 이미지 설명(대체 텍스트)이 없는 웹사이트에서도 AI가 이미지를 분석해 자동으로 설명을 생성하고, 스크린 리더가 이를 읽어준다. 음성 없이 손 제스처만으로 알렉사(Alexa) 같은 스마트 홈 기기를 제어할 수도 있다.

최신 AI 모델의 강점은 영상·텍스트·손동작·음성처럼 서로 다른 형태의 정보를 동시에 처리하고, 한 형태를 다른 형태로 변환할 수 있다는 점이다. 시각 장애인이 마우스 대신 음성으로 자연스럽게 인터넷과 상호작용할 수 있는 시스템도 구현됐다. 웹 AI는 더 많은 사람에게 정보 접근의 동등한 기회를 제공한다.

칠레 연어 공장이 웹 AI를 선택한 이유

칠레의 IoT4Life는 연어 생산 공장에서 웹 AI를 활용한다. 작업자의 이미지를 클라우드에 전송하지 않고도 생산 라인의 핵심 지표를 파악한다. 공장 현장의 상태, 가공 속도, 생선의 품질에 대한 실시간 분석을 얻으면서도 프라이버시를 보호한다. 우리가 먹는 연어가 식탁에 오르기까지 웹 AI가 한몫했을 가능성이 높다.

웹 기술의 낮은 진입 장벽과 설치 불필요, 간편한 유지보수 덕분에 공장 자동화 분야에서 웹 AI 활용이 빠르게 증가하고 있다. 기존 시스템과의 통합이 쉽고, 다양한 기기에서 동일한 솔루션을 사용할 수 있다는 점이 큰 장점이다.

크리에이티브 산업의 게임 체인저

크리에이티브 소프트웨어 기업인 어도비(Adobe)는 포토샵 웹(Photoshop Web)에서 웹 AI를 적극 활용한다. 스마트 선택 도구(smart selection tool) 같은 고급 기능을 웹 사용자에게도 제공하며 네이티브 앱과 동등한 성능을 구현한다. 서버 지연 시간이 없어 사용자 경험이 향상됐고, 오프라인에서도 작업할 수 있다. 어도비 솔루션은 이제 크롬북(Chromebook)을 포함해 거의 모든 기기에서 실행된다. 선호하는 브라우저에서 URL에 접속하기만 하면 된다.

*웹 사용자에게 스마트 선택 도구와 같은 고급 기능을 제공하여 네이티브 애플리케이션과 동등한 성능을 구현했다.*

크리에이티브 에이전시도 웹 AI의 혜택을 받고 있다. 개인 컴퓨터에 보유한 대용량 콘텐츠 관리 효율이 크게 높아졌기 때문이다. 로컬 비디오를 재생하면서 관심 장면을 AI가 즉시 추출하는 기능이 대표적이다. 보통 고화질 영상을 클라우드에 업로드하는 데 몇 시간에서 며칠이 걸린다는 점을 감안하면 상당한 시간 절감 효과다.

가상 체험의 시대, AR과 뷰티

vTuber(버추얼 유튜버)부터 가상 메이크업 체험까지, 웹 AI는 대규모 혼합 현실 경험을 가능하게 했다. 앱 설치 없이 브라우저만으로 실현된다.

*GIF 이미지에서 포즈, 손, 얼굴 키포인트 추정을 위한 여러 웹 AI 모델이 결합돼 3D 디지털 아바타에 생명을 불어넣는 과정을 확인할 수 있*다.

로레알 그룹 계열사 모디페이스(ModiFace) 사례가 대표적이다. 구글의 오픈소스 머신러닝 프레임워크 미디어파이프(MediaPipe)의 얼굴 인식 기술 페이스메시(FaceMesh) 모델이 카메라로 입술의 정확한 윤곽선을 실시간 추적하고, 웹 그래픽 기술이 그 위에 립스틱 색상과 질감을 사실적으로 채색한다. 매장에 가지 않고도 립스틱을 가상으로 체험할 수 있다. 화면 속 여성은 실제로 립스틱을 바르지 않았지만, 마치 바른 것처럼 보인다. 이런 경험의 유용성 때문에 구글 검색조차 자체적인 웹 AI 뷰티 체험 서비스를 도입했다.

디지털 키오스크와 증강 현실

쇼핑몰 키오스크를 활용한 디지털 경험도 증가했다. 가상 피팅 스타트업 지니(Geenee) 같은 기업은 증강 현실 액세서리 체험 시장을 개척하고 있다. 선글라스, 의류 같은 제품을 매장 내 키오스크에서 체험할 수 있을 뿐 아니라, 집에서 브라우저를 통해서도 가능하다.

많은 국가에서 현지 규정상 고객 이미지를 클라우드에 전송할 수 없기 때문에 웹 AI가 적합한 솔루션이다. 또한 실시간 피드백을 위해서는 최소한의 지연 시간이 필요한데, 선글라스나 메이크업, 핸드백이 사용자의 움직임을 완벽하게 따라가야 현실감 있게 착용한 듯한 느낌을 줄 수 있기 때문이다. 지니가 웹 AI를 선택한 이유는 하나의 코드로 iOS·안드로이드·윈도우 등 모든 운영체제에서 작동하면서도 필요한 성능을 확보할 수 있기 때문이다.

오프라인 소매의 디지털 혁신

브라질의 한 주요 소비재 기업은 소매 분석에 웹 AI를 활용한다. 슈퍼마켓 매장에서 근무하는 팀원들은 진열대를 구성하고 각 브랜드별 SKU(Stock Keeping Unit, 재고 관리 단위) 수를 집계해 재고와 시장 점유율을 추정해야 했다. 이는 매우 시간이 많이 소요되는 작업이다.

*브라질의 한 소비재 기업은 운영 중인 슈퍼마켓 매장에서 각 브랜드의 제품수를 집계해 재고와 시장 점유율을 추정한다.*

문제는 대형 매장의 거대한 금속 구조물 때문에 인터넷 연결이 불가능한 경우가 많다는 점이었다. 이를 해결하기 위해 지니는 맞춤형 물체 감지 모델을 훈련시킨 후 모바일 브라우저에 탑재해 오프라인에서도 실행되게 했다. 덕분에 근로자들은 진열대 사진을 찍기만 하면 알고리즘이 SKU를 계산하고 브랜드 시장 점유율을 파악한다. 별도 앱 설치도 필요 없다.

전자상거래의 예측적 사전 로딩

전자상거래에서도 웹 AI는 새로운 가능성을 열고 있다. 사용자가 클릭할 내용을 예측해 해당 콘텐츠를 우선적으로 사전 로드(predictive prefetch)함으로써 더 빠르고 반응성 높은 경험을 제공한다. 결과 표시 지연이 매출 손실로 이어질 수 있는 전자상거래에서 이는 중요한 경쟁력이다.

*사용자가 클릭할 내용을 예측해 해당 콘텐츠를 우선적으로 보여줌으로써 더 빠르고 반응성이 뛰어난 사용자 경험을 제공한다.*

이 기술은 쇼핑뿐 아니라 스포티파이(Spotify) 같은 멀티미디어 서비스에서 추천 엔진을 사용하는 웹사이트에서도 활용될 수 있다. 사용자 행동을 예측해 다음에 들을 만한 관련 곡을 미리 로드하는 방식이다.

빙산의 일각

여기 소개한 사례들은 빙산의 일각에 불과하다. 웹 AI는 통신, 의료, 제조, 소매, 크리에이티브 등 다양한 산업에서 이미 실질적인 가치를 증명했다. 비용 절감, 프라이버시 보호, 오프라인 작동이라는 세 가지 핵심 장점이 실제 비즈니스 문제를 해결하고 있다.

장기적으로는 모든 산업이 웹 AI의 영향을 받을 것이다. 하드웨어가 계속 발전하고 NPU 같은 AI 전용 칩이 보편화되면서, 웹 AI의 성능과 활용 범위는 더욱 확대될 전망이다. 브라우저에서 직접 실행되는 AI는 단순히 새로운 기술이 아니라 인터넷이 작동하는 방식을 근본적으로 바꾸는 변화의 시작이다.

제이슨 메이스 (Jason Mayes)는 구글의 웹 AI 리드로, 크롬·MediaPipe·TensorFlow.js 등 웹 AI 핵심 기술 팀을 대표하며 전 세계 개발자가 브라우저에서 머신러닝을 활용할 수 있도록 지원하고 있다. Google Developers·EdX에 공개된 최초의 웹 AI 공식 강좌의 저자이며, 10만 명 이상이 수강했다. 또한 세계 최초의 ‘웹 AI 서밋’의 창립자로, 업계 주요 인물들을 한자리에 연결하며 생태계 확장에 기여했다. 기술과 크리에이티브를 모두 아우르는 역량을 바탕으로 구글의 주요 고객사와 내부 팀을 위한 웹 AI 프로토타입을 개발해 왔다.

타일러 멀린(Tyler Mullen)은 미디어파이프 웹의 창시자이자 테크니컬 리드로, 구글 Meet의 영상 효과 및 BILIBILI의 실시간 댓글 기능 등을 웹에서 구현하는 데 핵심 역할을 하고 있다. 그는 LiteRT.js를 시작했으며, 크롬 내장형 AI를 위한 GPU 기반 최신 제미나이 나노(Nano) 구현을 주도했다. 이전에는 게임(Roblox, Play Games)과 컴퓨터 비전(Motion Stills) 연구를 했고, 2018년 웹 데모 실험을 계기로 웹 AI의 잠재력을 확인한 뒤 해당 분야에 전념했다. 모바일·PC·웹 개발 간 기술적 격차를 줄이고, 연구 단계의 머신러닝을 실서비스로 연결하는 일을 해왔다.

[해외 전문가 특별 칼럼] ② 화상회의부터 공장 자동화까지, 웹 AI가 산업 현장을 바꾸고 있다

개인정보 수집 및 이용

인기 기사

[해외 전문가 특별 칼럼] ② 화상회의부터 공장 자동화까지, 웹 AI가 산업 현장을 바꾸고 있다

MIT Technology Review 뉴스레터 구독

가장 빠르게 최신 콘텐츠를 받아 보세요.

개인정보 수집 및 이용

인기 기사

연관 토픽

머스크 vs 올트먼, 오픈AI IPO 앞두고 ‘운명 건’ 법정 충돌

탈(脫) 엔비디아 나선 중국 딥시크…새 모델 V4 전격 공개

법의 빈틈을 파고드는 AI…저비용 감시 시대가 온다

지금 AI 분야에서 주목해야 할 10대 키워드