fbpx

UNIST, AI들 협력 일부러 끊으며 훈련해 ‘한 기 빠져도’ 버티는 강화학습법 개발

AI 에이전트 간의 협력 고리를 학습 중 일부러 끊어 보며 훈련해, 일부 AI가 멈추거나 통신이 끊겨도 남은 AI들이 새 협력 방식을 찾아 임무를 이어가게 하는 강화학습법 'IBAL'을 개발했다.

자율 드론 군집이나 공장의 협업 로봇처럼 여러 AI가 함께 움직이는 시스템에서는 ‘팀플’이 중요하다. 문제는 한 대가 고장 나거나 통신이 끊기는 순간, 그 협력이 도미노처럼 무너진다는 데 있다.

여러 AI가 함께 일하다 일부가 빠지는 상황에서도 남은 AI들이 임무를 이어가게 하는 새로운 강화학습법이 나왔다. UNIST(울산과학기술원) 인공지능대학원 한승열 교수팀은 AI 에이전트(AI agent, 스스로 판단해 행동하는 인공지능 개체) 간의 협력 고리를 학습 과정에서 일부러 끊어 보며 훈련하는 멀티에이전트 강화학습 기술 ‘상호작용 차단 적대 학습(IBAL, Interaction-Breaking Adversarial Learning)’을 개발했다고 24일 밝혔다.

강화학습(reinforcement learning)은 AI가 시행착오를 거치며 더 나은 행동을 익히는 학습 방식인데, IBAL은 여러 AI가 협력하는 상황에서 그 협력 관계를 의도적으로 흔들며 단련시킨다. 일부 AI가 고장 나거나 통신이 끊겨도 전체 임무가 무너지지 않게 하는 것이 목표다. 연구 결과는 국제머신러닝학회(ICML) 2026에 채택됐다.

AI 에이전트 간 상호작용을 끊는 관측 공격과 행동 공격

‘한 명’이 아니라 ‘관계’를 흔드는 훈련

IBAL의 출발점은 기존 방식과 다른 문제의식이다. 그동안 여러 AI가 협력하는 멀티에이전트 강화학습(MARL, 여러 AI가 한 환경에서 상호작용하며 공동 목표를 학습하는 기술)에서 강건성을 키우는 연구는, 주로 센서 정보에 일부러 잡음을 넣거나 개별 AI가 임무에 불리한 행동을 하도록 만드는 데 초점을 맞췄다. 개별 AI의 판단을 방해하는 방식이었던 셈이다.

연구팀은 시선을 ‘AI들 사이의 관계’로 옮겼다. 실제 현장에서 문제가 되는 것은 한 대의 오작동만이 아니라, AI들이 서로를 보고 행동을 맞추던 협력 구조 자체가 깨지는 상황이기 때문이다. IBAL은 개별 AI의 판단을 흔드는 데 그치지 않고, AI들의 협력 관계 자체를 끊어 보며 훈련한다.

이를 위해 학습 과정에서 협력 네트워크가 깨지는 상황을 반복적으로 만든다. AI를 두 그룹으로 나눈 뒤, 어떤 정보와 행동이 그룹 간 협력에 중요한지를 상호정보량(mutual information, 두 대상이 서로 얼마나 많은 정보를 공유하는지를 재는 정보이론 지표)으로 분석한다. 그렇게 찾아낸 중요한 ‘정보’를 가리고, 협력을 깨뜨리는 ‘행동’을 유도하는 방식이다.

또 같은 패턴에만 익숙해지지 않도록 변화를 줬다. 매 학습 단계마다 그룹 구성을 무작위로 바꾸고, 공격 강도도 학습 상황에 맞춰 자동으로 조절한다. 이를 통해 AI가 다양한 형태의 협력 붕괴 상황을 폭넓게 경험하도록 설계했다. 제1저자인 이선우 연구원은 “IBAL은 개별 AI의 판단을 방해하는 데 그치지 않고 AI들의 협력 관계 자체를 흔들게 된다”며 “일부 AI가 고장 나거나 통신이 끊긴 상황에서도 남은 AI들이 새로운 협력 방식을 찾아 임무를 이어가도록 훈련할 수 있다”고 설명했다.

승률 13.3% vs 87.0%…군집 로봇·자율주행으로

성능 검증은 전략 게임을 활용한 실험 환경에서 이뤄졌다. 연구팀은 유명 전략 게임 ‘스타크래프트 II’ 기반의 실험 환경(SMAC)에서, 아군 유닛 일부가 갑자기 작동을 멈추는 돌발 상황을 가정해 성능을 시험했다. 한 팀원이 갑자기 사라졌을 때 AI들이 어떻게 대응하는지를 본 것이다.

결과는 뚜렷이 갈렸다. 기존 AI 모델들은 팀원이 빠지자 전체 협력 체계가 도미노처럼 무너졌고, 일부 모델은 승률이 13.3%까지 급락했다. 반면 IBAL로 학습한 경우에는 체력이 떨어진 유닛을 후방으로 빼고 건강한 유닛을 전면에 내세우는 등 즉각적으로 진형을 다시 짜며 87.0%의 승률을 기록했다. 축구로 치면 한 선수가 빠졌을 때 기존 전술만 고집하는 대신, 남은 선수들이 빈 공간을 메우고 역할을 다시 나누는 것과 비슷하다.

활용이 기대되는 분야는 여러 AI가 함께 움직이는 시스템 전반이다. 자율 드론의 군집 비행, 공장에서 손을 맞춰 일하는 로봇, 자율주행처럼 다수의 AI가 협력하는 시스템은 일부 장비가 고장 나거나 통신이 끊기면 전체가 흔들릴 수 있다. IBAL은 이런 돌발 상황에서도 남은 AI들이 스스로 역할을 다시 나누고 임무를 이어가도록 훈련하는 기반 기술이 될 수 있다.

한승열 교수는 “자율 드론과 군집 로봇, 스마트 팩토리처럼 여러 AI가 함께 움직이는 시스템은 일부 장비가 고장 나거나 통신이 끊기면 문제가 된다”며 “이번 기술은 이런 돌발 상황에서도 남은 AI들이 스스로 역할을 다시 나누고 임무를 이어가도록 훈련할 수 있어, 앞으로 다수의 AI가 함께 작동하는 시스템의 안전성과 신뢰성을 높이는 기반 기술이 될 것”이라고 말했다. 논문 제목은 ‘Interaction-Breaking Adversarial Learning Framework for Robust Multi-Agent Reinforcement Learning’이다.