[인터뷰] 서민준 KAIST 교수, “미래의 AI 에이전트는 로봇의 모습으로 다가올 것”

AI 에이전트는 과연 어떤 미래를 우리에게 제시하고 보여줄 것인지에 대해, 1세대 AI 비서인 클로바 개발에 참여하고, 현재 KAIST 김재철AI대학원에서 언어 모델을 연구하고 있는 서민준 교수의 견해를 들어봤다.

AI(Artificial Intelligence) 에이전트가 사용자의 질문에 답하는 챗봇을 넘어서는 새로운 가능성을 제시하고 있다.

상황에 따른 맥락을 이해하고 사용자의 일상 속 다양한 일을 능동적으로 자동화한다는 개념은 유능한 개인 비서 서비스라고 할 수 있다.

아직 본격적인 AI 에이전트의 등장은 이뤄지지 않고 있지만, 구글이나 오픈AI가 선보이고 있는 GPT-4o나 아스트라와 같은 기술이 등장하면서 머지않은 미래에 AI 에이전트의 시대가 도래할 것이라는 기대감을 높이고 있다.

AI 관련 기업들도 기존의 챗봇에 비해 사용자의 일상을 능동적으로 자동화하는 데 초점을 맞춘 AI 에이전트에 더 많은 관심을 보인다. 하지만 실생활에서 사용할 수 있는 수준의 AI 에이전트를 만들기 위해서는 해결해야 할 과제가 너무나 많이 남아있다.

그렇다면 AI 에이전트는 무엇이고 아직 해결해야 할 점은 무엇일까? 향후 AI 에이전트가 어떻게 발전해 나갈 것인지 알아보자.

KAIST 김재철AI대학원 교수와 트웰브랩스 최고 과학자(Chief Scientist)를 역임하고 있는 서민준 교수는 과거 네이버에서 AI팀 팀장으로 근무하면서 AI 플랫폼인 클로바 개발을 이끌었으며, 언어 모델 관련된 연구에 집중하고 있는 AI 전문가다.

이전 세대의 AI 비서를 만들었던 그를 만나 AI 에이전트가 무엇이고, 이것이 열어갈 미래에 대해 들어봤다.

서민준 | KAIST 김재철AI대학원 교수

최근 AI 에이전트에 관심이 집중되고 있습니다. 과연 AI 에이전트는 무엇이라고 정의할 수 있을까요?

일단 AI 에이전트라는 용어의 정의가 필요할 것 같습니다. 오픈AI 등 주요 AI 업체들이 말하는 AI 에이전트는 일종의 AI 기반 개인 비서 서비스라고 이해할 수 있을 것입니다. 예를 들면 영화 아이언맨(Iron Man)에 나오는 자비스(J.A.R.V.I.S.)와 같은 개인 비서를 AI 에이전트라고 칭하면서 사용자의 다양한 요구에 적절히, 그리고 능동적으로 대응하는 것을 목표로 하고 있습니다.

따라서 AI 에이전트는 지금 우리가 알고 있는 AI인 언어 모델을 기반으로 만들어진 사용자 인터페이스나 서비스라고 하는 것이 적절해 보입니다. 물론 기반이 되는 언어 모델이 충분히 성숙하지 못한 상태에서는 AI 에이전트로 활용할 수 없습니다. 최근 LLM(Large Language Model)에 대한 투자와 연구가 빠르게 집중되면서, 이제는 AI 에이전트를 구현할 수 있는 수준에 이르고 있습니다.

특히 텍스트만 처리하는 것이 가능했던 과거의 언어 모델과 달리 이제는 이미지나 소리, 심지어 동영상까지 입력하고 또 출력할 수 있는 멀티모달(Multimodal) 모델로 확장되면서 언어 모델을 AI 에이전트로 사용할 수 있는 가능성이 더 높아졌습니다. 멀티모달 모델은 AI 에이전트가 실제 세계를 보고 듣고 느낄 수 있는 기반이 되는 것은 물론이고, 사람과 더 긴밀하게 협업할 수 있는 환경을 조성할 수 있기 때문입니다.

현재 AI 에이전트 기술의 주요 한계점은 무엇이며, 이를 극복하기 위한 기술적 과제는 무엇입니까?

현재 AI 에이전트 서비스를 준비하고 있는 주요 AI 기업들조차 맥락에 대한 파악이라는 측면에서 약점을 갖고 있습니다.

AI 에이전트는 사람과의 사이에서 쌓여가는 맥락을 바탕으로 효율화가 이뤄져야 합니다. 업무 파악을 잘하는 비서에게 매번 업무에 대한 맥락을 설명할 필요가 없는 것과 마찬가지로 AI 에이전트 또한 맥락을 파악해야 합니다.

하지만 현재 AI 시스템에서는 맥락의 길이에 대한 한계도 있습니다. 그리고 맥락이 텍스트 외에 여러 가지 요소들의 결합으로 이뤄지는 경우가 대부분이라, AI가 필요한 모든 맥락을 파악하는 것은 거의 불가능에 가깝습니다.

두 번째로 AI의 추론 능력이 사람과 비교하면 한참 뒤처지고 있다는 것입니다. 그렇기 때문에 일반화하거나 새로운 것을 배우는 능력이 떨어집니다. 추론 능력이라는 한계점을 극복하기 위해서는 더 나은 품질의 데이터가 필요하지만, 이를 모으는 것은 쉬운 일이 아니기 때문에, 앞으로도 빠르게 개선되기는 어려울 것으로 보입니다.

AI 에이전트를 구현하기 위해서는 무엇보다 사용자와 매끄럽고 직관적인 상호작용이 중요할 것입니다. 이를 위해서는 어떤 기술적 개선이 이뤄져야 한다고 생각하십니까?

맥락을 파악하기 위한 학습 방법의 개선이 가장 먼저 이뤄져야 할 것입니다.

가장 근본적인 문제는 사람들에게는 매우 쉽고 간단한 일이 AI에게는 너무나도 어렵고 힘든 일이며 틀리는 경우도 많다는 것입니다.

기본적으로 현대적인 언어 모델은 다음에 올 단어를 예측하는 방식으로 동작합니다. 예를 들면 몇십억 개의 문장을 주고, 한 문장의 다음에 어떤 단어가 올 것인지 맞히는 모델을 만드는 것입니다.

이렇게 만들어진 모델이 바로 GPT–4o이고 LLaMA-3, 아스트라와 같은 AI 모델들입니다. 이 AI 모델은 어떤 업무에도 특화되지 않은 그저 세상의 수많은 정보를 보유하고 있는 것뿐입니다. 따라서 이 모델을 이용해 AI 에이전트를 만들기 위해서는 특정한 맥락에 맞춰 특화해야 합니다. 문제는 학습 방법에 있어 AI는 사람과 근본부터 차이가 있기 때문에 맥락을 받아들이는 방식이 비효율적이며 한계를 갖고 있습니다.

사람과 AI는 학습하는 방법이 다르지만, 학습의 대상은 동일합니다. 동일한 출력물을 원하지만, 그 출력물을 얻기 위한 방법론이 다른 것입니다. 따라서 사람과 긴밀하게 협력하고 직관적으로 상호작용을 할 수 있는 AI 에이전트가 만들어지기 위해서는 언어 모델의 학습 방법을 마치 사람이 학습하는 방법처럼 만드는 기술이 필요할 수도 있습니다.

향후 5~10년 안에 AI 에이전트를 구현하기 위한 어떤 기술이 주목을 받고 발전해 나가리라 생각하십니까?

소프트웨어 측면에서는 지금까지 AI 분야를 이끌어 온 오픈소스가 계속 강세를 유지할 것으로 보이며, 이외에 데이터의 중요성이 한층 강화될 것입니다.

특히 기존의 언어 중심 데이터뿐 아니라 이미지나 영상까지도 중요한 데이터로 자리 잡을 것이기 때문에 이런 데이터를 수집하고 확보하는 작업의 중요성이 더욱 강조될 것입니다.

하드웨어 측면에서 보면, 현재 AI를 위한 프로세스로 주로 활용되고 있는 GPGPU(General–Purpose computing on Graphics Processing Units)의 한계가 다가올 것입니다. 어떤 AI 모델을 디자인할지 알 수 없다고 생각하기 때문에 범용으로 사용할 수 있는 GPGPU를 사용하고 있지만, 실제로 AI 모델들의 구조는 크게 바뀌지 않고 있습니다.

AI 모델에 대한 뚜렷한 방향성을 갖고 있다면, 범용으로 사용하는 GPGPU보다는 특정 부분에 초점을 맞추고 최적화된 AI 칩을 사용하는 것이 비용 측면이나 에너지 소비 측면에서도 훨씬 유리합니다. 이런 전용 AI 칩이 엔비디아와 같은 GPGPU의 아성을 위협하는 존재가 될 것입니다.

AI 에이전트 서비스를 위한 대규모의 AI 모델을 구축하고 서비스하기 위해서는 저렴하고 효율적인 하드웨어가 필수입니다. 그리고 이 수요를 모두 충족시키기에는 엔비디아와 같은 특정 업체만으로는 부족할 수밖에 없습니다.

개인 사용자 입장에서 AI 에이전트 기술 활용이 일상생활에 어떤 변화를 불러올 것으로 기대하십니까?

AI 에이전트 기술의 궁극적인 발전 방향은 로봇이라고 생각합니다. 로봇은 물리적인 부분의 구현에 대한 기술적인 어려움도 있지만, 소프트웨어 측면에서도 많은 부분을 해결해야 합니다.

오픈AI조차 로봇 개발에 대한 투자를 포기할 정도로 쉬운 일이 아닙니다. 하지만 AI 에이전트 기술이 발전하면, 로봇 분야에 빠르게 접목될 것입니다. 우리나라를 비롯해 많은 나라들이 노령화, 인구 감소 등의 문제를 겪으면서 노동력 부족에 시달리고 있습니다.

AI 에이전트가 적용된 로봇이 부족한 노동력을 채워주거나, 혹은 사람들의 업무 생산성을 크게 향상해 인력 부족 문제를 메꿔줄 수 있을 것으로 기대하고 있습니다.