fbpx

생성형 AI의 또다른 진화, 온디바이스 AI

단말에서 직접 AI를 실행하면 기존 AI와는 또 다른 사용성을 제공받을 수 있다. 우리의 일상 속으로 더욱 깊숙이 침투하는 AI를 만들기 위한 온디바이스 AI가 무엇이고, 이를 구현하기 위해서는 무엇이 필요한지 알아보자.

2022년 11월 챗GPT의 등장과 함께 생성형 AI 열풍이 불기 시작했으며, 이 열기는 2024년 중반이 지난 지금에 와서도 여전히 IT 트렌드의 핵심 축으로 자리 잡고 있다. 이제 AI는 원하든 원하지 않든 우리 삶에 깊숙이 스며들고 있다.

이제 우리는 이메일 초안 작성이나 행사 기획서 준비부터 긴 기사나 논문이나 온라인 회의 내용 요약까지 다양한 방면에서 생성형 AI가 주는 혜택을 누리고 있다.

이 생성형 AI의 핵심 요소인 대형언어모델(Large Language Model, 이하 LLM)은 주요 기술 기업 간의 치열한 경쟁 속에서 끊임없이 진화하고 있다. LLM은 더 많은 지식과 데이터를 학습하면서 수천억에서 조 단위에 달하는 파라미터로 이를 처리한다. 또한 PDF 파일로 된 논문과 같은 대용량 사용자 입력을 처리하고, 단번에 책 한 권 분량을 생성할 수 있는 출력 능력을 자랑하면서 성능 경쟁을 펼치고 있다.

LMSYS Chatbot Arena Leaderboard의 LLM 경쟁 2024년 8월 12일자 현황 (출처: https://chat.lmsys.org/?leaderboard )

LLM의 성능 평가 및 비교 플랫폼인 ‘LMSYS Chatbot Arena Leaderboard’는 객관성과 공정성을 유지하기 위해 사용자가 익명의 두 LLM에 질문을 던지고, 양쪽의 답변 중 더 나은 것을 선택하는 블라인드 테스트 방식으로 작동한다. 이렇게 누적된 투표의 결과로 순위가 결정된다. 비록 이 테스트가 모델의 여러 성능지표를 충분히 반영해 보여주는 것은 아니지만, 마치 인기가요 차트처럼 빠른 변화를 보이며 LLM 간에 치열한 성능 경쟁 다툼이 벌어지고 있다는 걸 보여준다.

대규모 인프라를 기반으로 개발되고 운영되고 있는 초대형 LLM가 진화하고 있는 가운데 이와 또 다른 변화가 일어나고 있다. 단말 자체에 AI를 탑재해 활용하는 온디바이스(On-device) AI라는 또 다른 열풍이 AI 업계에서 불기 시작한 것이다.

온디바이스 AI란 무엇인가?

온디바이스 AI는 이름 그대로 기기 내에 탑재된 CPU, GPU, NPU 등을 활용해 AI를 실행하고 학습하는 기술을 말한다.

기존 클라우드 기반 AI, 예를 들면 챗GPT와 같은 경우 사용자가 입력한 프롬프트를 클라우드 서버로 전송하고 서버에서 이를 처리한 후 결과를 사용자의 기기로 다시 전송하는 과정을 거친다. 반면 온디바이스 AI는 클라우드 서버와의 접속 없이 모든 과정을 단말 내에서 처리한다. 따라서 인터넷 연결이 불가능하거나 접속이 불안정한 환경에서도 AI를 사용할 수 있으며, 서버로 데이터를 전송할 필요가 없기 때문에 데이터 보안과 프라이버시 보호 측면에서도 강점을 갖는다.

초기 챗GPT 붐이 일었을 때 클라우드 서버에 과도한 동시 사용자가 몰리자 프롬프트 입력 후 응답을 받기까지 꽤 많은 시간을 기다려야 하는 경우가 많았다. 온디바이스 AI는 이런 문제를 해결할 수 있는 잠재력을 갖고 있다. 다만 클라우드 기반 LLM의 속도가 크게 개선되면서 상대적으로 하드웨어 성능이 부족한 단말에서 온디바이스 AI의 응답 속도를 강조하기는 어려울 수 있다.

온디바이스 AI를 가능케 하는 SLM의 등장

삼성전자는 올해 1월 최신 스마트폰인 갤럭시 S24를 발표하면서 인터넷 연결 없이 단말 내에서 실시간 통화 번역을 처리할 수 있는 AI 기능을 강조했다. 이런 온디바이스 AI를 가능하게 만드는 핵심 요소는 ‘소형언어모델’, 즉 SLM(Small Language Model)이다.

SLM은 LLM에 비해 훨씬 더 파라미터 규모가 작지만 성능을 저하시키지 않도록 데이터 최적화를 통해 학습이 이뤄진다. 기존 LLM이 인터넷에서 수집된 방대한 양의 데이터를 기반으로 학습했다면 SLM은 모델의 성능에 중요한 영향을 미칠 수 있는 선별된 데이터를 가공해 더 적은 파라미터로도 높은 효율성을 발휘할 수 있도록 설계된다.

일례로 마이크로소프트는 지난해 말 27억 개의 파라미터를 가진 Phi-2 모델을 발표한데 이어 올해 4월에는 Phi-3 시리즈를 공개했다. 이 시리즈에는 140억 개의 파라미터로 구성된 Phi-3-medium 모델, 70억 개 파라미터의 phi-3-small과 함께 38억 개 파라미터의 phi-3-mini, 그리고 42억 개 파라미터로 이미지 인식이 가능한 멀티모달 모델인 phi-3-vision이 포함됐다.

이 모델은 극도로 선별된 데이터를 사용해 Llama-2나 GPT-3.5에 비해 훨씬 작은 크기에도 불구하고 이들 모델에 준하는 성능을 여러 벤치마크를 통해 보여줬다.

작은 크기에도 다양한 벤치마크에서 기존 LLM에 견줄만한 성능을 보여주는 SLM ‘Phi-3’
기존 LLM과 Phi-3 SLM을 파라미터 크기와 성능 측면에서 비교한 차트

양자화 기술을 통해 경량화된 SLM

SLM이 크기가 작아도 높은 성능을 낼 수 있는 이유는 효율적인 신경망(Neural Network) 구조 개발이나 양자화(Quantization), 가지치기(Pruning) 등 다양한 기술 덕분이다.

예를 들어, 아이폰 14에서 Phi-3-mini 모델을 구동하기 위해 사용된 양자화 기술은 머신러닝 모델의 파라미터 값을 보다 낮은 비트 수로 표현해 메모리 사용량과 연산량을 크게 줄이는 방법이다. 32비트 부동 소수점(floating-point) 대신 8비트 정수(integer)를 사용하면 크기를 4분의 1로 줄일 수 있으며, 최근 많이 시도되는 4비트 양자화를 적용하면 32비트 부동 소수점에 비해 8분의 1, 그리고 16비트 부동 소수점 값과 비교하더라도 4분의 1로 모델의 크기를 줄일 수 있다.

Phi-3-mini 모델은 4비트 양자화를 통해 1.8GB까지 경량화됐으며, A16 바이오닉 칩이 내장된 아이폰 14에서 구동돼 초당 12개의 토큰(언어 모델이 텍스트를 이해하고 생성하는 단위로 영어의 경우 보통 75개 단어가 대략 100개 토큰)을 생성할 수 있었다. 현재 갤럭시 S24에 탑재된 제미나이 나노(Gemini Nano) 역시 이와 유사한 방식으로 경량화한 구글의 SLM이다.

아이폰 14에서 4비트로 양자화된 Phi-3-mini 모델을 구동중인 화면

최근에는 LLM을 로컬 웹 애플리케이션에서 손쉽게 실행하고 활용할 수 있도록 도와주는 Ollama와 같은 도구가 등장했다. 이를 통해 노트북이나 ‘라즈베리 파이 5(Raspberry Pi 5)’와 같은 저렴한 임베디드 보드에서도 SLM을 구동할 수 있다. 여기에 오픈소스로 공개된 Ollama를 위한 ‘Ollama WebUI’를 사용하면 챗GPT와 유사한 UI로 로컬에서 SLM을 테스트할 수도 있다.

마이크로소프트의 온디바이스 AI 비전 리콜

애플이 지난 6월 ‘애플 인텔리전스(Apple Intelligence)’를 발표하며 경쟁 업체들에 비해 한 발 늦게 생성형 AI 경쟁에 돌입했다.

애플은 우선 챗GPT 연계를 위해 오픈AI와 협력하면서도, 온디바이스 모델과 서버 모델 간의 적절한 오케스트레이션이 가능한 아키텍처 구축에 중점을 뒀다. 이를 통해 사용자가 체감할 만한 기능으로 표준 UI 프레임워크를 사용하는 어디서나 글쓰기 도구를 통해 자신이 작성한 문장을 수정하고 교정 및 요약하며, 문서나 프레젠테이션 자료 작성 중 손쉽게 필요한 이미지를 생성하고, Genmoji를 이용해 메시지를 주고받는 중에 필요한 이모티콘을 그때그때 생성해 전송하며, 통화 내용을 글로 옮기고 요약하는 기능 등을 보여줬다.

아이폰에서 글쓰기 도구를 이용 중인 화면

마이크로소프트는 1년 전 이미 코파일럿(Copilot) 전략을 제시했다. 마이크로소프트서는 윈도우 11 운영체제와 엣지(Edge) 브라우저, 기존 오피스 제품군들과 온라인 회의도구인 마이크로소프트 팀즈(Microsoft Teams) 등이 포함된 마이크로소프트 365용 코파일럿을 통해 다양한 AI 기능을 제공하고 있다. 또한 써드파티 기업이 기능을 확장할 수 있도록 개발 환경과 도구도 추가로 제공하고 있다. 지난 5월 마이크로소프트는 AI 워크로드 처리를 위한 NPU가 탑재된 ‘코파일럿+PC(Copilot+ PC)’를 발표하면서 보안과 프라이버시를 극대화할 수 있는 온디바이스 AI 솔루션 ‘리콜(Recall)’을 공개했다.

내 PC에서 벌어진 모든 것을 기록하고 검색할 수 있는 ‘리콜’

‘리콜’은 사용자가 PC를 사용하며 보고 있는 화면을 매 5초 주기로 스크린샷으로 캡처해 클라우드 서버가 아닌 로컬 드라이브의 특정 공간에 철저히 암호화해 저장한다. 화면의 변화가 있을 때만 저장하며, 저장공간이 꽉 차면 가장 오래된 스크린샷부터 삭제되고 최신 스크린샷이 저장되는 방식으로 동작한다. 이를 위해 256GB 용량의 디바이스에서 25GB 용량의 기본 저장공간 할당을 가정할 때 약 3개월 분량의 스크린샷을 저장할 수 있을 것으로 예상하고 있다.

그리고, 스크린샷을 저장하는 시점에 온디바이스 AI를 활용해 텍스트, 이미지, URL 등의 정보를 추출해 벡터로 임베딩하고, ‘윈도우 시맨틱 인덱스(Windows Semantic Index)’에 저장하기 때문에 사용자가 자연어로 필요한 내용을 검색할 때, 맥락에 맞는 스냅샷을 빠르게 찾을 수 있다. 예를 들어, 두세 달 전 인터넷 서핑 중 우연히 보았던 ‘레이스가 달린 파란 원피스’를 자연어 문장으로 단번에 다시 찾아내는 것이 가능하다. 이는 로컬에서 동작하는 온디바이스 AI로 사용자의 기억력을 강화하는 나만의 기록 검색 서비스 역할을 할 수 있다.

또한 찾아낸 스크린샷에서 AI를 사용해 텍스트만 추출하거나 해당 웹페이지로 바로 이동할 수 있으며, 만일 검색 결과가 워드나 파워포인트 파일의 특정 페이지였다면 해당 파일을 즉시 열어볼 수 있다. 이런 기능 덕분에 명확하지 않은 기억을 더듬으며 수많은 디렉토리나 파일, 웹사이트를 뒤지는 시간을 절약할 수 있다.

물론 기록을 원하지 않는 경우에는 윈도우 우측 하단의 트레이를 통해 언제든지 캡처를 중지할 수 있으며, 이미 저장된 스크린샷을 일부 또는 전부 삭제할 수도 있다. 또한, 특정 앱이나 웹사이트를 사용할 때나 보안이 걸린 DRM 콘텐츠를 볼 때는 스크린샷이 기록되지 않도록 설정할 수 있으며, 윈도우 헬로(Windows Hello)를 통해 얼굴이나 지문 등 생체인증을 해야만 검색할 수 있도록 설정해 보안과 프라이버시를 더욱 강화된 온디바이스 AI 사용 환경을 만들 수도 있다.

‘선글래스와 브라운 가죽 가방’이란 자연어로 기록을 검색 중인 리콜 프리뷰 화면

온디바이스 AI의 확장 가능성

지금까지 온디바이스 AI, 특히 언어 모델이 PC와 스마트폰에서 어떻게 탑재되고 활용될 수 있는지 살펴봤다.

애플은 온전히 자신들이 개발한 애플 실리콘을 아이폰, 아이패드, 맥북이라는 자신들의 디바이스에만 차용하고 있기에 ‘애플 인텔리전스’가 지원되는 장비를 명확히 제어해 나갈 것이다.

반면 윈도우 노트북은 다양한 사양으로 시장에 출시되고 있기에, 40+ TOPS(초당 40조 번의 연산) 이상을 수행하는 NPU가 탑재된 PC를 ‘코파일럿+PC’로 브랜드화해 AI 기능을 제공하는 전략을 펼치고 있다.

다양한 형태로 제공되는 안드로이드 기기들은 삼성전자처럼 자체적으로 AI를 발전시켜 나갈 수 없을 경우 구글의 온디바이스 AI 전략과 소프트웨어 출시를 따라가며 여기에 맞춰 일정 기준 이상의 칩셋을 채택하게 될 것이다.

온디바이스 AI는 다양한 요구에 특화된 머신러닝 모델로서 기기의 센서, 카메라, 마이크, 스크린, 터치, 제스처, 음성, 얼굴, 지문, 홍채 등의 인터페이스를 통해 사용자와 상호작용하고, 행동과 환경을 인식하며 콘텐츠와 정보를 제공하고 서비스와 경험을 개선해 나갈 것이다. 그리고 이런 특징을 바탕으로 스마트워치, 스마트밴드, 스마트안경, 스마트TV, 스마트스피커, 스마트홈, 스마트카, 스마트시티 등 수많은 스마트 기기와 환경에 적용될 수 있다. 그리고 이런 기술은 사진, 비디오, 음악, 게임, 쇼핑, 교육, 건강, 피트니스, 여행, 금융, 보안, 엔터테인먼트 등의 분야에서 자연스레 스며들고 있다.

또한, ‘온디바이스 학습(On-device Learning)’ 기술도 지속적으로 발전하고 있다. 이 기술은 사용자의 기기 자체에서 AI 모델을 학습하고 개선하는 방식으로, 마치 마치 프랜차이즈 본사가 레시피를 개발하고 매장에서 이를 개선한 후 다시 본사에 피드백을 주는 과정과 유사하게, 엣지 단말이 직접 데이터를 서버와 공유하지 않으면서도 협력해 모델을 개선하는 ‘연합 학습(Federated Learning)’을 활용될 수 있다. 이런 기술들을 통해 온디바이스 AI는 앞으로 더욱 빠르게 발전하며, 우리 일상 속에서 지속적인 변화를 이끌어 낼 것이다.

웨어러블 디바이스와 결합된 온디바이스 AI가 여러분의 건강과 운동 상태를 세밀하게 모니터링하고 코칭해 주는 세상, 그런 세상은 여러분이 인식하지 못하는 사이에 빠르게 다가올 것이다.

이 글을 쓴 최윤석 Tech PM은 2016년까지 세계적인 기술 기업, 오라클에서 경력을 쌓으며 인터넷 기술 및 모바일 기술 등을 섭렵하고 또 관련 지식을 전파했다. 이후 한국마이크로소프트에서 기술 전문가로서 활발히 활동하고 있다. 개발자 플랫폼 사업본부와 커머셜 소프트웨어 엔지니어링 조직을 이끌어 왔으며, 현재 Industry Solutions Engineering에서 Tech PM을 맡고 있다.