fbpx

UNIST, AI 안정성 높이는 데이터 증강 조건 규명

UNIST 연구진이 데이터 증강이 AI 모델의 강건성을 향상시키는 조건을 수학적으로 증명해 시행착오 없는 AI 개발 길을 열었다.

UNIST 인공지능대학원 윤성환 교수팀이 AI 학습의 필수 단계인 데이터 증강이 모델의 강건성(입력 데이터에 노이즈나 왜곡이 추가되거나 학습 때와 다른 분포의 데이터가 들어와도 성능이 크게 떨어지지 않는 모델의 특성)을 높이는 조건을 수학적으로 증명했다고 19일 밝혔다. 연구팀은 근접 지지 증강(PSA, Proximal-Support Augmentation)이라는 조건을 제시했다. PSA는 원본 데이터에 미세한 변형을 가해 원본 데이터 주변을 촘촘히 채우는 증강 방식으로, 이 조건을 만족하면 모델 내부의 파라미터 공간이 평평해져 강건성을 갖추게 된다는 사실을 이론적으로 입증했다. 수학적 검증만으로도 효과적인 증강 기법을 선별할 수 있게 돼 AI 모델 개발의 생산성을 크게 높일 수 있을 전망이다. 이번 연구는 세계적 인공지능 학술대회인 전미인공지능학회(AAAI) 2026 정식 논문으로 채택됐다.

원본 데이터 주변 촘촘히 채우는 증강이 핵심

딥러닝 모델은 학습한 데이터와 조금만 다른 환경에 노출되면 성능이 급격히 저하되는 약점이 있다. 예를 들어 맑은 날씨에서 학습한 자율주행 AI는 눈보라가 치면 차선을 제대로 인식하지 못하거나, 고화질 이미지로 학습한 의료 AI는 저화질 사진으로는 암을 진단하지 못할 수 있다. 원본 데이터에 인위적으로 변형을 가해 학습량을 늘리는 데이터 증강(기존 학습 데이터를 회전, 자르기, 색상 변화 등 다양한 방식으로 변형해 데이터 양을 늘리고 모델의 일반화 성능을 높이는 기법)이 필수적인 이유다.

그러나 어떤 변형 방식이 가장 효과적인지에 대해서는 명확히 밝혀진 바가 없다 보니, 수많은 시행착오를 반복해야만 했다. 증강 기법을 여러 가지 조합해보고 많은 실험을 반복해 본 뒤에야 해당 방법이 일반화 성능과 분포 이동(Distribution Shift, 학습에 사용된 데이터 분포와 실제 서비스 환경에서 들어오는 데이터 분포가 달라지는 현상) 상황에서 얼마나 효과적인지 확인할 수 있었다. 이 과정은 시간과 비용이 많이 들고, 모델 구조나 데이터가 바뀔 때마다 다시 처음부터 검증해야 한다는 한계가 있었다.

연구팀은 근접 지지 증강(PSA) 조건을 만족하는 증강일수록 원하는 효과를 거둘 수 있다는 사실을 수학적으로 증명했다. PSA 조건이란 각 학습 데이터 주변의 작은 반경 안에 증강 데이터가 충분히 조밀하게 존재하는 증강 방식을 의미한다. 즉, 원본과 너무 동떨어진 극단적 변형보다는 원본 데이터 근처를 촘촘하게 채워주는 증강이 강건성 향상에 결정적 역할을 한다는 것이다.

실제 실험에서도 PSA 조건을 충족한 데이터 증강 기법이 그렇지 않은 기법보다 월등한 강건성을 보였다.

PSA 증강이 평탄한 최소점을 형성하는 과정의 개념도.
(왼쪽) 원본 이미지 주변에 다양한 증강 이미지를 배치한 입력 공간과, 그에 상응하는 파라미터 공간의 손실 지형을 함께 나타낸 그림.
(가운데) 원본 근처를 조밀하게 채우는 증강인 근접지지증강을 적용했을 때, 파라미터 공간에서 넓고 완만한 평탄한 최소점이 형성되는 모습을 도식화했다.
(오른쪽) PSA 증강을 통한 입력 안정성 확보와 손실 지형 평탄화 효과.

데이터 공간과 파라미터 공간의 연결 고리 규명

연구팀은 먼저 데이터 공간과 파라미터 공간에서 변화가 서로 대응된다는 점을 증명했다. 특정 데이터 주변의 작은 변형(노이즈, 회전, 밝기 변화 등)에 대해서도 예측이 안정적으로 유지되면, 그에 상응하는 파라미터 공간에서도 작은 변화에 손실이 거의 변하지 않는 평탄한 최소점(Flat Minima, 손실 함수를 파라미터 공간에서 바라볼 때 주변의 작은 변화에도 손실 값이 크게 변하지 않는 넓고 완만한 영역의 최소점)에 도달하게 된다는 것을 이론적으로 정식화했다.

다음으로 PSA 조건을 만족하는 데이터 공간에서의 변화가 파라미터 공간의 손실함수 지형도를 평평하게 다져준다는 사실을 입증했다. 즉, 입력 데이터 주변을 촘촘히 채우면 이에 대응하는 모델 내부의 파라미터 공간도 평평해져 AI가 강건성을 갖추게 되는 것이다. 모델 손실함수의 지형이 평탄할 경우, 뾰족한 지형(Sharp Minima)에 비해 강건성이 높다.

연구진은 이러한 평탄성이 있을 때, 학습 분포와 다른 환경(잡음 추가, 화질 저하, 센서 특성 변화 등)에서의 성능 저하 상한이 줄어든다는 일반화 이론을 제시했다. 이로써 “PSA를 만족하는 증강을 사용하면, 분포가 달라져도 성능이 잘 유지되는 강건한 모델을 얻을 수 있다”는 것을 수학적으로 보여주었다.

연구팀은 “데이터 증강 설계를 보다 체계적인 과학으로 만든 연구”라며 “자율주행, 의료 영상, 제조 검사처럼 분포가 자주 바뀌는 실제 환경에서 신뢰할 수 있는 AI 모델을 만드는 데 중요한 이론적 기반이 될 것”이라고 밝혔다.

PSA 조건은 비교적 단순한 기준으로, 어떤 증강 기법이 강건성 향상에 얼마나 기여할지 사전에 가늠할 수 있게 됐다. 새로운 증강 기법을 제안할 때 PSA 조건을 얼마나 잘 만족시키는지 확인함으로써, 실제 대규모 실험에 앞서 성공 가능성을 빠르게 진단하고 시행착오를 줄일 수 있다.

제안된 이론은 특정 네트워크 구조나 데이터셋에 의존하지 않기 때문에 이미지에 국한되지 않고 음성 및 텍스트 등 다양한 도메인으로 확장 가능하다. 의료 영상, 자율주행, 제조 분야와 같이 분포가 자주 바뀌고 노이즈가 많은 환경에서 특히 활용 가치가 클 것으로 예상된다.