AI armed with multiple senses could gain more flexible intelligence

언어와 감각이 만난다, 다중감각 인공지능

인간의 지능은 감각과 언어 능력이 결합되어 나온다. 인공지능도 마찬가지일 것이다.

2012년 말, 인공지능 연구자들은 신경망이 ‘보게 하는’ 방법을 처음 알아냈다. 과학자들은 인간의 두뇌를 대략적으로 모방하도록 설계된 소프트웨어가 기존의 컴퓨터 비전 시스템을 대폭 개선할 수 있다는 것을 입증했다. 이후 우리는 신경망이 사람이 추론하고, 듣고, 말하고, 쓰는 법을 모방하게 하는 방법을 터득했다.

왜 중요한가

감각을 느끼고 대화가 가능한 AI는 새로운 문제를 훨씬 더 잘 해결하고 사람과의 공동 작업도 잘 수행할 것으로 예상된다.

핵심 기업-기관

• 오픈AI
• AI2
• 페이스북

실용화 시기

현재 가능


AI가 특정 업무에 있어서 인간과 같은 수준으로, 심지어 초인적인 경지로 발전했지만, 사람의 두뇌가 갖는 유연성을 따라잡기에는 역부족이다. 사람은 어떤 상황에서 기술을 배운 다음 이것을 다른 상황에 적용할 수 있다. 반면 딥마인드의 게임 알고리즘 알파고는 세계 최고의 바둑 고수를 이길 수 있지만, 그 전략을 바둑판 밖으로 확장할 수는 없다. 다시 말해서 딥러닝 알고리즘은 패턴 익히기는 잘 하지만, 복잡하게 변화하는 세계를 이해하고 적응하지는 못한다.

연구원들은 이 문제를 과연 어떻게 극복할 지에 대해서 여러 가설을 세웠고, 그 결과 한 가지 가설이 설득력을 얻었다. 아이들은 세상을 느끼고 이야기함으로써 배운다. 조합이 관건이다. 단어를 시각, 청각, 기타 감각 정보와 연관 짓기 시작하면서, 아이들은 점점 더 복잡한 현상과 관계를 묘사할 수 있고, 상관 관계에서 원인을 분리하며, 세상을 이해하는 정교한 모델을 만들 수 있다. 그런 다음 이것을 활용해 낯선 환경을 탐색하고 새로운 지식과 경험을 맥락에 맞춰 반영한다.

반면, 인공지능 시스템은 한 번에 한 가지만 하도록 설계되어 있다. 컴퓨터 비전과 오디오 인식 알고리즘은 사물을 감지할 수는 있지만, 언어를 사용하여 사물을 묘사할 수는 없다. 자연어 모델은 단어 조작이 가능하지만, 이 단어들은 감각적 현실(Sensory Reality)과 분리되어 있다. 감각과 언어가 결합되어 AI가 사람처럼 새로운 정보를 수집하고 처리할 수 있다면, 세상을 이해하는 AI도 개발할 수 있지 않을까?

인간의 지능의 감각 및 언어 ‘모드’를 동시 이용하는 ‘멀티모달(Multimodal: 복합)’ 시스템으로 새로운 상황이나 문제에 잘 적응하는 강력한 AI 탄생에 대한 기대가 나오고 있다. 이러한 알고리즘은 더 복잡한 문제를 해결하도록 돕거나, 일상 생활에서 사람과 소통하고 협업하는 로봇에 이식될 수 있다.

오픈AI의 GPT-3 같은 언어처리 알고리즘에서 거둔 새로운 성과가 도움이 됐다. 인간처럼 언어를 다루는 능력을 복제하는 방법에 대한 이해는 충분히 높아졌다. 이를 감각 능력과 결합하면 큰 효과를 낼 수 있으리라 기대된다. 감각 인식 분야 최초의 성과인 컴퓨터 비전이 우선 적용되었다. 그 결과 시각-언어 AI라는 단순 이중모드 (Bimodal) 모델이 등장했다.

작년 한 해 이 분야에서 몇 가지 흥미로운 결과가 나왔다. 지난 9월 앨런인공지능연구소(AI2: Allen Institute for Artificial Intelligence) 연구진은 텍스트로 된 설명에서 이미지를 생성하는 모델을 개발했다. 알고리즘이 단어와 시각 정보를 연계할 수 있음을 보여준 것이다. 11월 노스캐롤라이나주립 채플힐대학 연구팀은 기존 언어 모델에 이미지를 접목하는 방법을 개발하여 모델의 독해력을 향상시켰다.

그 후 오픈AI는 이 개념을 GPT-3 확장에 사용했다. 올해 초, 오픈AI는 두 가지 시각 언어 모델을 출시했다. 첫번째 모델은 이미지 속 물체를 캡션에서 설명하는 단어와 연결한다. 두번째 모델은 학습한 개념을 조합해 이를 기반으로 이미지를 생성한다. 모델에게 “해 뜰 무렵 들판에 앉아 있는 카피바라 그림”을 그려보라고 해보자. 카피바라를 본 적이 없어도, 모델은 그림, 카피바라, 들판, 해 뜰 무렵이라는 단어를 조합하여 수십 가지 예를 만들어 낸다.

유연한 사고 능력은 AI 적용 분야를 확대함은 물론 AI를 더 안전하게 만들 수 있다.

멀티모달 시스템이 더 정교해지면 업그레이드된 로봇 도우미 탄생도 가능할 전망이다. 알렉사 수준이 아니라 로봇 집사(Robot Butler)를 말하는 것이다. 현재 AI 기반 로봇은 주로 시각 데이터를 사용하여 주변 환경을 탐색하고 상호작용한다. 이런 로봇은 물류 창고에서 주문을 이행하는 것 같이 제한된 환경에서 단순 작업을 수행하기에 유용하다. 그러나 AI2 같은 연구기관들은 언어를 추가하고, 청각 및 촉각 데이터 등 감각을 더 많이 반영할 수 있도록 연구를 진행 중이다. 이를 통해 기계는 명령을 이해하고, 누가 노크하면 문을 열어주는 등 더 복잡한 작업을 수행할 수 있다.

장기적 관점에서 볼 때, 멀티모달 분야의 발전은 AI가 직면한 가장 큰 한계를 극복하는데 유용할 수 있다. 전문가들은 AI가 세상을 이해하지 못하는 것이 AI가 종종 실패하거나 속는 이유라고 주장한다. (사람은 인지할 수 없지만, AI에게는 완전히 다른 것으로 보이게끔 이미지를 조작할 수 있다.) 유연한 사고 능력은 AI 적용 분야를 확대함은 물론 AI를 더 안전하게 만들 수 있다. 이력서를 선별하는 알고리즘은 성별이나 인종 같은 특징이 지원자의 능력을 보여준다고 판단하지 않게 될 것이다. 자율주행 차량은 낯선 환경에서도 방향을 잃지 않고, 어두운 곳이나 눈 내리는 날씨에도 충돌을 피할 수 있다. 멀티모달 시스템은 우리가 진정으로 신뢰할 수 있는 최초의 AI가 될 전망이다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.