Error-riddled data sets are warping our sense of how good AI really is

AI 학습시키는 데이터세트, 믿을만한가?

테스트 데이터 결함으로 머신러닝에 대한 사람들의 생각은 왜곡되었다.

MIT의 새로운 연구에 따르면, 가장 많이 인용된 AI 데이터세트 10개가 라벨 오류로 가득하며 그 결과 관련 분야에 대한 사람들의 생각이 왜곡되고 있다.  

데이터 백본(Data Backbone): 데이터 세트는 AI 연구의 근간을 이루지만, 이 보다 더 중요한 것도 있다. 시간이 흐름에 따라 AI 기능이 어떻게 발전하는지를 파악하기 위한 방법으로 연구진이 머신러닝 모델 평가에 사용하는 핵심 데이터 세트가 있다. 제일 유명한 케이스는 현대 AI 혁명을 탄생시킨 표준 이미지 인식 데이터 세트 이미지넷(ImageNet)이다. 0에서 9까지 손으로 쓴 숫자 이미지로 이루어진 MNIST도 있다. 또한, 오디오, 텍스트, 손 그림을 인식하도록 훈련된 모델을 테스트하는 데이터 세트도 있다.

하지만: 최근 몇 년 동안의 연구에 따르면 이 데이터 세트에는 심각한 오류가 포함되어 있다. 예를 들면, 이미지넷은 인종차별 및 성차별주의 라벨을 포함하고 있을 뿐만 아니라, 사람들의 동의 없이 얼굴 사진도 사용하고 있다. 라벨이 완전히 틀린 경우도 많은데 이에 대해서도 연구가 진행 중이다. 버섯은 숟가락(Spoon), 개구리는 고양이(Cat), 아리아나 그란데(Ariana Grande)의 높은 음은 호루라기(Whistle)라고 되어 있다. 이미지넷 테스트 세트의 예상 오류율은 5.8%이다. 한편, 손 그림 모음인 퀵드로우(QuickDraw) 테스트 세트의 오류율은 10.1%에 달한다.

어떻게 측정되었는가? 모델 평가에 사용되는 10개의 데이터 세트 안에는 각각 모델 훈련에 사용되는 트레이닝 데이터가 있다. 연구팀, MIT 대학원생 커티스 G. 노스컷(Curtis G. Northcutt)과 애니쉬 애텔예(Anish Athalye), 동문 조나스 뮐러(Jonas Mueller)는 훈련 데이터 세트를 사용하여 머신러닝 모델을 개발한 다음 테스트 데이터를 통해 예측을 수행했다. 모델이 원래 라벨과 일치하지 않는 경우, 데이터 포인트는 수동 검토를 위해 플래그가 지정되었다. 아마존 메카니컬 터크(Amazon Mechanical Turk)에서 구한 5명의 인간 리뷰어에게 모델의 라벨과 원래 라벨 중 어느 쪽이 옳다고 생각하는지 선택해 달라고 요청했다. 인간 리뷰어 대부분이 모델의 라벨에 동의하는 경우, 원래 라벨은 오류로 집계된 뒤 수정되었다.

이것이 중요한가? 그렇다. 연구팀은 이미지넷 테스트 세트와 비교하여 성능이 평가된 적 있는 34개의 모델을 조사했다. 그런 다음, 데이터 라벨이 잘못된 약 1,500개의 사례에 대해 각각의 모델을 재측정했다. 연구원들은 원래 라벨이 틀렸을 경우 성능이 그다지 좋지 못했던 모델이 수정 이후 탁월한 모델이 되었다는 것을 알았다. 특히 복잡한 모델보다 간단한 모델이 수정된 데이터에서 더 뛰어난 성능을 발휘했다. 그 동안 복잡한 모델은 구글 등 테크 기업에서 이미지 인식을 위해 사용되었으며 이 분야에서 최고로 간주되었다. 다시 말해서 우리는 테스트 데이터 결함 때문에 복잡한 AI 모델을 대단한 성과로 과대평가하는 것일 수도 있다.

다음 차례는 무엇인가? 노스컷은 AI 분야가 모델 평가 및 관련 분야 현황 파악을 위해 더 정제된 데이터 세트를 개발할 것을 권장한다. 또한 연구원들이 자신의 데이터로 작업할 경우 데이터 정제화(Data Hygiene)를 개선할 것을 권한다. “만약 불량 데이터 세트와 여러 모델을 현실에 배치하면, 결국 잘못된 모델을 선택하게 될 것이다”라고 주장한다. 이와 관련하여 노스컷은 라벨 오류 수정을 위해 연구에 사용한 코드를 공개했다. 이 코드는 현재 이미 일부 주요 테크 기업에서 사용 중이다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.