fbpx

인간 시연 없이 학습하는 휴머노이드 로봇의 등장

엔비디아와 카네기멜론대학교가 시뮬레이션 환경에서만 학습한 휴머노이드 실험을 발표하며, 로봇 학습 방식에 대한 기존 전제에 새로운 질문을 던졌다.

세계 최대 AI 반도체 기업 엔비디아와 카네기멜론대학교(CMU) 연구진이 휴머노이드 로봇의 이동과 물체 조작 능력을 획기적으로 끌어올릴 새로운 AI 프레임워크를 공개했다.

연구팀은 11월 27일 arXiv에 ‘VIRAL(Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation)’ 논문을 게재하며, 시뮬레이션만으로 학습한 로봇이 추가 튜닝 없이 실제 환경에서 복잡한 행동을 수행하는 데 성공했다고 밝혔다. 해당 연구는 ‘로봇이 어떻게 배워야 하는가’라는 질문을 던진다.

기존에는 사람이 로봇에게 동작을 직접 가르치거나, 로봇을 실제 환경에 반복 투입해 학습시켰다. 하지만 VIRAL의 휴머노이드(Unitree G1)는 사람의 시연도, 실제 환경 연습도 전혀 거치지 않았다. 로봇은 시뮬레이션에서만 학습했으며, 이를 실제 환경에 곧바로 적용했다.

연구팀은 이동과 물체 조작이 결합된 59개의 과제를 수행하도록 로봇을 설계했고, 이 중 54개를 성공적으로 완료했다. 성공률 약 91.5%다. 이는 시뮬레이션에서만 학습한 시각 기반 휴머노이드 사례 중 가장 높은 성과에 해당한다.

휴머노이드 개발 기업인 테슬라 옵티머스, 피겨AI, 어질리티 로보틱스 같은 상업용 휴머노이드들은 각자 다른 과제를 수행하고, 서로 다른 방식으로 학습하기 때문에 VIRAL과 단순 비교하기는 어렵다. 하지만 한 가지는 분명하다. 대부분의 휴머노이드는 사람이 동작을 보여주거나 현실에서 반복 훈련해야 한다. 사람의 시연 없이 안정적으로 높은 성공률을 달성한 경우는 드물다.

휴머노이드는 걷기, 물체 집기, 옮기기를 동시에 수행하기 때문에 기술적으로 복잡하다. 현실 환경에서 이를 반복 실험할 경우, 장비 손상과 안전 문제가 발생해 시간과 비용이 급증한다. 그렇다고 시뮬레이션만으로 해결할 수 있는 것도 아니다. 시뮬레이션과 실제 환경의 차이, 이른바 ‘심투리얼 갭(sim-to-real gap)’ 문제가 있기 때문이다.

VIRAL 연구는 이 갭을 좁히는 하나의 방법을 제시했다. 시뮬레이션에서만 학습한 정책으로 91.5%의 성공률을 달성한 것이다.

Autonomous Loco-Manipulation Time Lapse
출처: VIRAL WEB

현실 데이터 없이 학습이 가능했던 이유는?

VIRAL 연구의 핵심에는 엔비디아의 시뮬레이션 플랫폼 아이작 랩(Isaac Lab)이 있다. 아이작 랩은 GPU 기반 물리 엔진으로 중력, 마찰, 관절 운동 등을 시뮬레이션한다. 핵심 강점은 대규모 병렬 학습이다. 동일한 로봇을 수백 개 이상 복제해 동시에 학습시킬 수 있다.연구진은 64개의 GPU를 활용해 각 로봇이 독립적으로 시행착오를 반복하도록 설계했다. 이를 통해 현실에서는 수개월에서 수년에 걸릴 학습 과정을, 시뮬레이션 환경에서는 훨씬 짧은 시간 안에 압축할 수 있었다.

VIRAL은 ‘심투리얼 갭’을 안정적으로 구현하기 위해 ‘교사–학생(teacher–student)’ 구조를 채택했다. 교사 모델’은 시뮬레이션 안에서 모든 정보를 꿰뚫고 있다. 물체가 정확히 어디 있는지, 얼마나 빨리 움직이는지, 로봇 관절이 어떤 상태인지 등 완벽한 데이터를 보며 최적의 동작을 계산한다. 마치 정답지를 보고 문제를 푸는 것과 같다. 반면 학생 모델은 이와 달리 실제 로봇에 탑재된 RGB 카메라 영상만을 입력받아 교사의 행동을 모방한다.

연구진은 PPO(Proximal Policy Optimization)라는 강화학습 알고리즘을 사용했다. 로봇이 잘하면 보상을 주는 방식인데, 이동 안정성, 물체 집기 성공률, 이동 정확도 등 여러 요소를 종합 평가했다. 핵심은 ‘걷기’와 ‘물건 잡기’를 따로 학습시키지 않고 하나의 통합된 전략으로 본 것이다.

여기에 ‘도메인 랜덤화(domain randomization)’라는 기법을 더했다. 훈련할 때마다 조명, 바닥 마찰력, 물체 재질, 카메라 화질 등을 무작위로 바꾸는 것이다. 마치 다양한 환경에서 반복 연습하게 해 현실 적응력을 높이는 방식이다. 이 기법은 2017년 오픈AI가 발표한 이후 시뮬레이션 학습을 현실로 옮기는 ‘심투리얼(sim-to-real)’ 분야의 핵심 기술이 됐다.

이러한 기술 결합은 현실 데이터 없이도 로봇이 실제 환경에서 안정적으로 작업을 수행할 수 있도록 한다. 연구팀은 논문에서 “대규모 시뮬레이션이 학습 품질을 좌우한다”고 강조했다. 실제로 GPU 1개만 사용했을 때는 로봇이 제대로 학습하지 못하거나 중간에 실패하는 경우가 반복됐지만, 64개의 GPU를 동원해 수백 개의 가상 로봇을 동시에 학습했을 때는 성공률이 높았다.

Visual Randomization in Simulation All Randomization
출처: VIRAL WEB

인간 모방에서 환경 상호작용으로, 로봇 학습의 중심 이동

기존 휴머노이드 로봇 기업들은 대부분 실제 작업 데이터를 기반으로 기술을 발전시켜 왔다. 피겨AI는 독일 자동차 제조사 BMW 공장과 협력해 조립 라인의 동작 데이터를 수집하고 있으며, 테슬라 옵티머스는 인간 작업자의 시연 영상을 수천 건 단위로 축적해 동작을 학습하고 있다. 이러한 방식은 현실성을 갖추는 데 강점이 있지만, 데이터 수집 과정이 느리고 비용이 높다는 제약이 있다.

일본·유럽계 로봇 기업들 또한 유사하다. 지난해 토요타 연구소(Toyota Research Institute, TRI)의 연간 기술 보고서에 따르면, 실험실과 실제 가정 환경을 구축해 수백 시간의 로봇 조작 데이터를 모아야만 안정적인 조작 구현이 가능하다고 설명했다. 영국의 다이슨 로보틱스(Dyson Robotics)는 실제 주거 환경을 모사한 실내 테스트룸을 수십 개 운영하면서 데이터를 쌓는 방식으로 비용과 시간이 많이 소요된다. 즉, ‘현실에서 데이터를 모아야 학습이 가능하다’는 인식은 서구·아시아를 막론한 로봇 기업들의 공통 접근이었다.

VIRAL은 로봇이 인간을 따라 배우는 대신, 시뮬레이션 환경과 그 상호작용을 기준점으로 삼도록 했다. “사람은 이렇게 움직이는데 로봇은 어떻게 흉내 낼까?”에서 “이 물리 환경에서 어떤 행동이 가장 잘 작동할까?”로 질문이 옮겨간 것이다.

연구팀은 “시뮬레이션 기반 학습의 핵심은 인간 동작 모방이 아니라 환경과의 상호작용”이라고 설명한다. 로봇은 물리 환경 속에서 스스로 시행착오를 반복하며 최적의 행동 전략을 찾아낸다. 연구팀은 “인간의 역할이 사라지는 것이 아니라, 직접 시연에서 학습 환경 설계로 이동한다”고 강조했다. 테슬라 옵티머스는 인간 작업자의 동작을 대규모로 수집해 학습에 활용하는 것으로 알려져 있으며, 실제 현장에서의 반복 데이터를 중요 자산으로 삼는다. 반면 피겨AI는 공식 인터뷰에서 “제품 단계에서 텔레오퍼레이션에 의존하지 않겠다”고 밝히며, 장기적으로 인간 개입을 줄이는 방향을 강조했다. 접근은 다르지만, 모두 ‘확장 가능한 학습 경로’를 찾고 있다.

그러나 VIRAL의 시뮬레이션 방식이 기존 방식을 바로 대체할 가능성은 낮다. 현실 환경의 복잡성은 시뮬레이션이 아직 완벽히 재현하지 못하는 영역이며, 특히 제조·의료·물류 분야는 99.9%에 가까운 신뢰성을 요구한다. 연구팀도 논문에서 ‘완전한 시뮬레이션 기반 실제 구현으로 이어지는 단계는 앞으로 해결해야 할 핵심 과제’라고 명시했다.

The First RGB-based Sim2Real for Reaching
2025년 5월 30일, 시각적 입력에 따라 녹색/빨간색 상자에 도달하는 과제 수행. 빨간색 상자는 손가락을 닫고, 녹색 상자는 손가락을 펴는 것을 의미함.
출처: VIRAL WEB

시뮬레이션 학습이 여는 휴머노이드의 미래

시뮬레이션 기반 접근은 로봇 개발의 초기 비용과 시간을 크게 줄일 수 있다는 점에서 산업적 관심을 받고 있다. 국제로봇연맹(IFR)은 2024년 보고서에서 “전 세계 로봇 도입이 향후 5년간 두 배 가까이 증가할 것”이라고 전망하며, 기업들이 자동화 전환 과정에서 직면하는 가장 큰 제약 중 하나가 “현실 데이터 수집 속도”라고 지적했다. 시뮬레이션은 이러한 병목을 완화할 수 있는 도구로 부상하고 있으며, VIRAL은 그 가능성을 보여준 사례다.

기업들의 전략에서도 보인다. 피겨AI는 오픈AI와 협력해 모델 기반 로봇 정책을 개발하고 있으며, 딥마인드 로보틱스(DeepMind Robotics)는 멀티모달 모델을 통해 실제 장면 이해 능력을 강화하는 방향으로 연구를 확장하고 있다. 중국 로봇 기업 푸리에 인텔리전스(Fourier Intelligence)와 유비테크(UBTECH)는 공장 단위 시뮬레이션을 구축해 다수의 로봇을 가상 환경에서 훈련하는 전략을 발표했다. 로봇 개발 비용과 속도를 좌우하는 요소가 현실 데이터 수집에서 “얼마나 정교한 시뮬레이션 세계를 만들 수 있는가”로 이동하고 있다는 분석도 나온다.

다만 기술적 제약도 존재한다. 로봇공학자들은 “시뮬레이션이 액체, 변형 가능한 물체, 미세한 마찰 변화 등 비정형 물리 요소를 완전히 재현하기 어렵다”고 말한다. 또한 “로봇 하드웨어 자체의 정렬 오차나 센서 노이즈는 시뮬레이션에서 근사적으로 처리되기 때문에, 현실 적용 단계에서 예기치 않은 실패가 발생할 수 있다”고 설명한다. 이에 대해 연구팀은 “대규모 시뮬레이션 스케일 같은 충분한 컴퓨팅 자원이 전제돼야 안정적인 학습이 가능하다”고 강조했다. 이런 이유로 많은 기업과 연구기관들은 시뮬레이션 기반 학습과 현실 데이터 보정을 결합하는 ‘하이브리드 접근법’을 채택하고 있다. 어질리티 로보틱스는 물류 현장 적용을 전제로 하면서도 시뮬레이션과 현실 실험을 병행하는 하이브리드 전략을 취하고 있다. 반면 중국의 일부 로봇 기업들은 공장 단위 가상 환경을 먼저 구축해 다수의 로봇을 동시에 학습시키는 방식을 강조한다.

하지만 이 접근 역시 높은 계산 자원과 정교한 시뮬레이션 환경을 전제로 한다. 대규모 GPU 인프라와 물리 모델링 역량은 소수의 기업과 연구기관에 집중될 가능성이 크다. 시뮬레이션 기반 학습이 접근성을 넓히는 동시에 새로운 진입 장벽을 만들 수도 있다.

향후 로봇 개발은 인간 시연, 현실 데이터, 시뮬레이션, 이 세 가지 학습 방식을 전략적으로 결합하느냐로 이동할 것이다. 이런 하이브리드 접근이 정착되면, 반복적이고 구조화된 작업(물류, 제조, 재난 대응)에서 휴머노이드 로봇의 상용화 속도는 현재 예상보다 빨라질 수 있다. VIRAL 프로젝트를 통해 로봇이 인간 없이도 배울 수 있다는 가능성은 입증됐지만, 범용 휴머노이드, 즉 학습하지 않은 새로운 작업에 즉각 대응하는 로봇은 여전히 먼 과제다.