로봇은 어떻게 학습하는가: 한눈에 보는 로봇 학습의 진화사
로봇공학자들은 큰 꿈을 꾸면서도 작은 결과물만을 내놓곤 했다. 인체의 경이로운 복잡함을 따라잡거나 능가하기를 바라면서도, 정작 평생 자동차 공장용 로봇 팔을 개선하는 데 시간을 보내는 식이었다. 영화 〈스타워즈〉에 나오는 사람과 대화하고 번역까지 하는 휴머노이드 로봇 C-3PO를 목표로 했지만 결국 로봇 청소기 룸바를 만드는 데 그친 셈이다.
이들 연구자 중 다수는 공상과학 소설 속 로봇을 만드는 걸 꿈꿨다. 세상을 자유롭게 이동하고, 다양한 환경에 적응하며, 사람들과 안전하고 유용하게 상호작용할 수 있는 기계 말이다. 사회적 의식이 강한 이들에게 이러한 로봇은 거동이 불편한 사람을 돕고, 외로움을 줄여주고, 인간에게 위험한 일을 대신 수행할 수 있는 존재였다. 반면 경제적 의식이 강한 이들에게는 임금 없이도 활용할 수 있는 무한한 노동력의 원천을 의미했다. 그러나 오랜 실패의 역사 때문인지 실리콘밸리 로봇공학자들 대부분은 이처럼 ‘사람에게 도움이 되는 로봇’에 베팅하는 것을 주저해 왔다.
하지만 이제 상황이 바뀌었다. 이러한 로봇은 아직 만들어지지 않았지만, 제작에 필요한 투자는 이어지고 있다. 기업과 투자자들은 2025년 한 해에만 휴머노이드 로봇에 61억 달러(약 9조 원)를 투자했다. 이는 2024년 투자액의 4배에 달하는 액수다.
어떻게 된 것일까? 기계가 세상과 상호작용하는 방식을 배우는 데 있어 일대 혁명이 일어났다.
가정용 의류 관리 로봇 팔이 옷을 개는 법을 배우는 과정을 상상해 보자. 초기에는 일일이 규칙을 부여하는 방식을 사용할 수 있다. 옷감의 신축성을 파악하고 셔츠 깃을 식별하며, 집게를 소매로 이동해 정해진 거리만큼 접으라는 세세한 지침을 내리는 식이다. 셔츠의 방향이나 소매의 뒤틀림까지 고려하기 시작하면 입력해야 할 규칙은 폭발적으로 증가한다. 하지만 이 모든 과정을 철저히 계산해 낸다면 로봇은 안정적으로 임무를 수행할 수 있게 된다. 모든 가능성을 미리 예측하고 사전에 프로그래밍하는 것, 이것이 과거 로봇공학이 기술을 구현하던 전형적인 방식이었다.
그러나 2015년경 최첨단 연구는 다른 방향으로 나아가기 시작했다. 로봇 팔과 옷의 디지털 시뮬레이션을 구축하고, 옷을 잘 갤 때마다 보상 신호를, 잘 개지 못할 때마다 알림음을 주는 방식이 도입됐다. 이렇게 하면 로봇은 수백만 번의 반복 실험을 통해 시행착오를 겪으며 다양한 방법을 스스로 시도하고 점점 더 나아진다. 이는 인공지능(AI)이 게임을 학습하는 방식과 유사하다.
2022년 생성형 AI인 챗GPT의 등장은 현재의 로봇 붐을 촉발했다. 방대한 양의 텍스트로 훈련된 대형언어모델(LLM)은 시행착오가 아니라, 문장에서 다음에 어떤 단어가 나올지를 예측하는 방식으로 작동한다. 로봇공학에 적용된 이와 유사한 모델들은 곧바로 사진, 센서 측정값, 로봇 관절의 위치 정보를 입력으로 받아들여 기계가 취해야 할 다음 행동을 예측하고, 초당 수십 개에 달하는 모터 제어 명령(로봇의 각 관절과 부품을 실제로 움직이도록 하는 정밀한 동작 지시 신호)을 내리게 되었다.
대량의 데이터를 흡수하는 AI 모델에 의존하는 이러한 개념적 전환은, 사람에게 도움이 되는 로봇이 사람과 대화하든, 환경을 이동하든, 혹은 복잡한 작업을 수행하든 상관없이 효과가 있는 것으로 보인다. 또한 이러한 방식은 새로운 학습 방식을 실현하기 위한 다른 접근 방식과 결합됐다. 예를 들어 아직 완벽하지 않더라도 로봇을 실제 환경에 투입해 자신이 작동해야 할 환경 속에서 직접 학습하게 하는 방식이다. 오늘날 실리콘밸리의 로봇공학자들은 다시 한번 큰 꿈을 꾸고 있다.
지보
지보(Jibo)
LLM 시대가 도래하기 훨씬 전부터 사람과 대화를 나누는 이동형 소셜 로봇이 존재했다.
신시아 브리즈얼(Cynthia Breazeal) MIT 로봇공학 연구원은 2014년 팔, 다리, 얼굴이 없는 ‘지보’라는 로봇을 세상에 선보였다. 사실 이 로봇의 모습은 마치 램프 같았다. 브리즈얼 연구원의 목표는 가족을 위한 소셜 로봇을 만드는 것이었고, 크라우드펀딩 캠페인을 통해 370만 달러(약 55억 원)를 모금했다. 초기 예약 판매 가격은 749달러(110만 원)였다.
초기 지보는 자기소개를 하고 아이들을 즐겁게 하기 위해 춤을 추는 정도의 기능을 갖고 있었지만, 그 정도가 끝이었다. 당초 목표는 일정 관리와 이메일 처리부터 이야기 전달까지 다양한 일을 수행할 수 있는 일종의 ‘물리적 형태를 가진 비서(embodied assistant)’를 만드는 것이었다. 지보는 충성도 높은 사용자층을 확보했지만, 결국 회사는 2019년에 문을 닫았다.
COURTESY OF MIT MEDIA LAB
돌이켜보면 지보에게 정말로 필요했던 것은 더 나은 언어 처리 능력이었다. 지보는 애플의 시리와 아마존의 알렉사와 경쟁하고 있었는데, 당시 이러한 기술들은 모두 복잡한 스크립트에 의존하고 있었다. 대략적으로 말해서 사용자와 대화할 때 소프트웨어는 사용자의 말을 텍스트로 변환하고, 원하는 바를 분석한 뒤 미리 승인된 문구 조각들에서 응답을 생성해 냈다. 그런데 이렇게 미리 준비해놓은 문구들은 매력적일 수도 있었지만, 동시에 반복적이고 지루하기 짝이 없었다. 그야말로 로봇 같았다. 이는 사교적이고 가족 중심적이어야 했던 로봇에게는 특히나 해결해야 할 중대한 과제였다.
물론 그 이후로 기계가 언어를 생성하는 방식에 엄청난 변화가 일어났다. 현재 주요 AI 제공업체들이 제공하는 음성 모드는 흥미롭고 인상적이며, 수많은 하드웨어 스타트업들이 이를 활용한 제품을 만들려고 시도하고(그리고 실패하고) 있다.
하지만 여기에는 새로운 위험이 따르는 것도 사실이다. 대본에 따라 진행되는 대화는 궤도를 이탈할 가능성이 거의 없지만, AI가 생성한 대화는 그럴 가능성이 높기 때문이다. 예를 들어 일부 인기 있는 AI 장난감들은 아이들에게 성냥이나 칼을 찾는 방법을 알려주기도 한다.
오픈AI
닥틸(Dactyl)
시뮬레이션을 통해 훈련된 로봇 손은 현실 세계의 예측 불가능성과 다양성을 모방하려고 시도한다.
2018년이 되자 모든 주요 로봇공학 연구소는 기존의 규칙 기반 방식(미리 작성된 스크립트식 규칙)을 버리고 시행착오를 통해 로봇을 학습시키려 했다. 오픈AI는 로봇 손 닥틸을 가상 환경에서 훈련시키기 위해 노력했다. 즉, 손의 디지털 모델과 닥틸이 조작해야 할 손바닥 크기의 큐브 모델을 활용했다. 큐브의 면에는 문자와 숫자가 적혀 있었고, 모델에는 “빨간색 면 중 문자 O가 적힌 면이 위를 향하도록 큐브를 회전하라”와 같은 과제가 주어졌다.
문제는 여기서 발생했다. 로봇 손은 시뮬레이션 환경에서는 이 작업을 매우 잘 수행할 수 있었지만, 해당 프로그램을 실제 세계의 물체에 적용하면 두 환경 사이의 미세한 차이 때문에 오류가 발생할 수 있었다. 색상이 약간 다르거나, 로봇 손가락 끝의 변형 가능한 고무 재질이 시뮬레이션보다 더 잘 늘어나는 식이었다.
COURTESY OF OPENAI
이 문제를 해결하는 방법이 ‘도메인 랜덤화(domain randomization)’다. 이는 서로 미묘하게 다른 수백만 개의 가상 환경을 생성하는 방식이다. 각 환경에서는 마찰이 더 낮거나, 조명이 더 강하거나, 색상이 더 어둡게 설정되는 등 조건이 무작위로 달라진다. 로봇이 이러한 다양한 변화를 충분히 경험하면 실제 세계에서도 큐브를 더 잘 조작할 수 있게 된다. 이 접근 방식은 닥틸에서 효과를 봤고, 1년 뒤에는 같은 핵심 기술로 더 어려운 과제인 루빅스 큐브 풀이에도 성공했다(다만 성공률은 60% 수준이었고, 특히 복잡하게 섞인 경우에는 20%까지 떨어졌다).
그럼에도 시뮬레이션의 한계로 인해 이 기술이 오늘날 차지하는 비중은 2018년에 비해 훨씬 작아졌다. 오픈AI는 2021년 로봇공학 사업을 중단했지만, 최근 해당 조직을 다시 재개했으며 휴머노이드 로봇에 집중하고 있는 것으로 알려졌다.
구글 딥마인드
RT-2
인터넷 전반에서 수집한 이미지를 활용한 학습은 로봇이 언어를 행동으로 변환하는 데 도움을 준다.
구글의 로봇공학 팀은 2022년경 다소 이색적인 실험을 진행했다. 17개월 동안 사람들에게 로봇 조종기를 건네주고, 그들이 칩 봉지를 집어 드는 것부터 병뚜껑을 여는 것까지 다양한 작업을 수행하는 모습을 기록했다. 이후 약 700가지에 달하는 다양한 작업 모습을 정리했다.
목표는 로봇공학을 위한 초기 대규모 파운데이션 모델(대규모 범용 AI 모델) 중 하나를 구축하고 검증하는 것이었다. LLM과 마찬가지로 방대한 데이터를 입력해 알고리즘이 처리 가능한 형태로 토큰화한 뒤 결괏값을 생성하는 원리다. 구글의 RT-1은 로봇의 시각 정보와 로봇 팔 부위별 위치 데이터를 입력받아 특정 지시를 로봇 구동을 위한 모터 제어 명령으로 변환했다. 그 결과, 이미 학습한 작업은 97%의 높은 성공률로 수행했으며, 처음 접하는 생소한 지시에 대해서도 76%의 성공률을 기록했다.
COURTESY OF GOOGLE DEEPMIND
이듬해 출시된 두 번째 버전인 RT-2는 한 걸음 더 나아갔다. 로봇공학에 특화된 데이터로 훈련하는 대신, 당시 많은 연구자들이 개발하던 ‘비전-언어 모델(vision-language model)’처럼 인터넷 전반에서 수집한 보다 일반적인 이미지를 활용해 더 폭넓은 데이터를 기반으로 학습했다. 이를 통해 로봇은 눈앞의 장면 속에서 특정 물체의 위치를 파악할 수 있게 됐다.
두 버전의 개발을 주도한 구글 딥마인드 로봇공학자 카니슈카 라오(Kanishka Rao)는 “이 모든 새로운 기능들이 가능해졌다”면서 “이제 가수 ‘테일러 스위프트 사진 근처에 콜라 캔을 놓아라’ 같은 명령도 수행할 수 있게 됐다”고 말했다.
구글 딥마인드는 2025년 LLM이 로봇공학의 영역을 더욱 융합하여, 자연어 명령 이해 능력이 향상된 ‘제미나이 로보틱스(Gemini Robotics)’ 모델을 출시했다.
코베리언트
RFM-1
로봇 팔이 동료 직원처럼 행동할 수 있게 해주는 AI 모델.
오픈AI가 첫 번째 로봇공학 팀을 해체하기 전인 2017년, 일부 엔지니어들은 ‘코베리언트’라는 프로젝트를 분사해 설립했다. 목표는 공상과학 소설 속 휴머노이드가 아니라 창고에서 물건을 집어 들고 옮기는 가장 현실적인 형태의 로봇 팔을 만드는 것이었다. 코베리언트는 구글과 유사한 파운데이션 모델 기반 시스템을 구축한 뒤, 주방용품 제조사인 크레이트 앤 배럴(Crate & Barrel)과 같은 기업이 운영하는 창고에 이를 배치하고 데이터 수집 파이프라인으로 활용했다.
2024년이 되자 코베리언트는 동료와 대화하듯 상호작용할 수 있는 로봇 모델 RFM-1을 선보였다. 예를 들어 로봇 팔에 테니스 공이 담긴 여러 개의 포장 묶음을 보여주고, 각각을 서로 다른 구역으로 옮기라고 지시할 수 있었다. 그러면 로봇은 물체를 제대로 잡기 어려울 것으로 판단할 경우 어떤 흡착 장치를 사용해야 할지 되묻는 식으로 대응했다.
이러한 시도는 이전에도 실험 수준에서는 이루어졌지만, 코베리언트는 이를 상당한 규모로 실제 현장에 도입했다. 현재 이 회사는 모든 고객 현장에 카메라와 데이터 수집 장비를 설치해 모델 학습에 활용할 데이터를 지속적으로 확보하고 있다.

COURTESY OF COVARIANT
완벽하지는 않았다. 2024년 3월, 다양한 주방용품을 활용한 시연에서 로봇은 “바나나를 원래 위치로 돌려놓으라”는 지시를 받았을 때 어려움을 겪었다. 스펀지와 사과를 집어 드는 등 여러 물건을 번갈아 다루며 시행착오를 거친 끝에야 임무를 겨우 수행할 수 있었다.
피터 첸(Peter Chen) 공동 창업자는 당시 필자에게 “로봇은 자신의 이동 경로를 되짚는 ‘새로운 개념’을 아직 이해하지 못한다”면서 “하지만 이는 좋은 사례다. 충분한 학습 데이터가 없는 환경에서는 아직 제대로 작동하지 않을 수 있기 때문”이라고 말했다.
첸과 또 다른 공동 창업자 피터 아벨(Pieter Abbeel)은 이후 아마존에 영입됐으며, 아마존은 현재 코베리언트의 로봇공학 모델을 라이선스해 사용하고 있다(아마존은 해당 모델의 활용 방식에 대한 질문에 답하지 않았지만, 이 회사는 미국 내에서만 약 1,300개의 물류 센터를 운영하는 것으로 추정된다).
어질리티 로보틱스
디짓(Digit)
기업들은 이 휴머노이드 로봇을 실제 환경에서 시험하고 있다.
로봇 스타트업으로 유입되는 신규 투자금은 램프나 로봇 팔 같은 형태가 아니라 사람을 닮은 로봇에 집중되고 있다. 휴머노이드 로봇은 기존에 사람이 일하던 공간과 업무에 자연스럽게 투입될 수 있고, 거대한 로봇 팔 같은 새로운 형태에 맞춰 생산라인을 대대적으로 개조할 필요를 줄여준다.
그러나 이는 말처럼 쉬운 일이 아니다. 실제 물류 창고에서 휴머노이드 로봇이 투입되는 사례는 드물고, 그마저도 대부분 테스트 구역이나 시범 운영 단계에 머물러 있다.

COURTESY OF AGILITY ROBOTICS
하지만 어질리티의 휴머노이드 ‘디짓’은 실제 업무에 투입돼 성과를 내고 있는 것으로 보인다. 관절이 드러나 있고 인간과는 확연히 다른 형태의 머리를 지닌 이 로봇의 디자인은 공상과학적 미학보다는 기능성에 초점을 맞췄다. 아마존과 토요타는 물론, 애플과 나이키를 고객으로 둔 물류기업 GXO 등이 이 로봇을 도입했다. 그 결과 디짓은 단순한 호기심을 자극하는 수준을 넘어 실제 비용 절감 효과를 제공하는 사례로 평가받는 최초의 휴머노이드 로봇 중 하나로 자리 잡았다. 디짓은 온종일 배송용 상자를 집어 들고, 옮기고, 쌓는 작업을 수행한다.
그러나 현재의 디짓은 실리콘밸리가 기대하는 인간형 도우미와는 아직 거리가 멀다. 예컨대 이 로봇이 들어 올릴 수 있는 무게는 약 16kg에 불과하다. 또한 어질리티가 디짓의 출력(힘)을 높일수록 배터리는 더 무거워지고, 충전 빈도 역시 늘어나는 한계가 있다. 아울러 표준화 기구들은 휴머노이드 로봇이 이동성을 갖추고 사람 가까이에서 작동하도록 설계된 만큼 대부분의 산업용 로봇보다 더 엄격한 안전 기준이 필요하다고 지적한다.
그럼에도 디짓은 이번 로봇 학습 혁명이 단일한 방식으로 수렴하고 있지 않음을 보여준다. 어질리티는 오픈AI가 로봇 손을 훈련시키는 데 활용했던 것과 유사한 시뮬레이션 기법을 사용하고 있으며, 구글의 제미나이 모델과의 협업을 통해 로봇이 새로운 환경에 적응하도록 하고 있다. 10년이 넘는 실험은 로봇 업계를 지금의 자리로 이끌었고, 이제 업계는 로봇을 대규모로 구축·배치하는 단계로 들어서고 있다.