What if we could just ask AI to be less biased?

편향성을 완화하는 이미지 생성 AI 모델이 출시되었다

자체적으로 편향성을 수정하는 언어모델에 이어 사용자의 안내에 따라 편향성이 적은 이미지를 생성하는 AI 모델이 개발되었다. 기술적 한계는 있지만, 생성형 AI 모델의 사용처가 넓어지는 상황에서 이러한 노력은 편향성 문제를 해결하는 실마리가 될 수 있다.

두 눈을 감고 머릿속에 교사의 모습을 그려보자. 구체적으로 어떤 이미지가 떠오르는가? 최근 가장 큰 인기를 끌고 있는 2가지 AI 이미지 생성 모델인 스테이블 디퓨전(Stable Diffusion)과 DALL-E 2에 이 질문을 한다면 이 모델들은 안경을 쓴 백인 남성의 이미지를 제시할 것이다.

최근 필자는 AI 스타트업 허깅페이스(Hugging Face)와 독일 라이프치히 대학교 연구진이 개발한 새로운 도구 ‘스테이블 바이어스(StableBias)’에 대한 글을 기고했다. 사람들은 이 도구들을 통해 다양한 성별 및 인종과 관련하여 AI 모델에 어떤 종류의 편향성이 내재되어 있는지 직접 확인할 수 있다.

나는 우리의 편견이 AI 모델에 어떻게 반영되는지에 관하여 많은 기사를 써왔지만, AI가 만들어 낸 인간의 이미지가 얼마나 백인 남성 중심의 진부한 고정관념에 사로잡혀 있는지를 다시금 확인하는 과정은 여전히 충격적으로 느껴졌다. 이러한 편향성은 DALL-E 2에서 더욱 두드러져 ‘CEO’나 ‘책임자(director)’와 같은 지시어를 입력할 경우 백인 남성 이미지가 생성되는 비율이 97%에 이르렀다.

편향성 문제는 AI가 만들어 내는 광활한 세계에 생각보다 훨씬 더 근본적인 영향을 미친다. 미국 스탠퍼드 대학교에서 연구원으로 일하는 페데리코 비앙키(Federico Bianchi)는 AI 모델들이 미국 기업에 의해 개발되고 북미에서 생성된 데이터를 기반으로 훈련되기 때문에 문이나 집처럼 평범한 일상과 관련된 이미지 생성을 지시하는 경우에도 ‘미국적(American)’으로 보이는 사물을 만들어 낸다고 말한다.

이 세계가 AI 생성 이미지들로 도배될수록 우리는 대부분 미국의 편견, 문화 및 가치관을 담은 이미지를 보게 될 것이다. AI가 결국 미국의 소프트파워(soft power)를 위한 주요 도구로 활용될 수 있다는 시나리오는 누구도 예상하지 못했을 것이다.

그렇다면 우리는 이 문제에 어떻게 대처할 것인가? 그동안 AI 모델 훈련에 사용되는 데이터 세트에 포함된 편향을 수정하기 위해 다양한 시도들이 이뤄졌다. 이 중 최근 두 건의 연구 논문에서는 흥미롭고 참신한 접근 방식을 제시한다.

학습 데이터의 편향성을 제거하는 대신 AI 모델에 편향성이 적은 답변을 내놓도록 지시한다면 어떨까?

독일 다름슈타트 공과대학교(Technical University of Darmstadt)의 연구팀과 AI 스타트업 허깅페이스는 원하는 이미지 유형을 생성하기 위해 AI 모델을 쉽게 조정할 수 있는 페어 디퓨전(Fair Diffusion)이라는 도구를 개발했다. 예를 들어 사용자는 다양한 설정의 CEO 스톡 사진을 생성한 다음 페어 디퓨전을 사용하여 이미지 속의 백인 남성을 여성이나 다른 인종의 사람으로 바꿀 수 있다.

허깅페이스가 개발한 스테이블 바이어스를 통해 직접 확인할 수 있듯이 학습 데이터의 이미지-텍스트 쌍을 근거로 이미지를 생성하는 AI 모델들은 기본적으로 직업, 성별 및 인종에 대해 심각한 편향성을 보인다. 독일 연구팀이 개발한 페어 디퓨전은 의미 안내(semantic guidance)라는 독자적인 기술로 작동한다. 이 기술을 통해 사용자는 AI 시스템이 사람의 이미지를 생성하고 결과를 편집하는 방법을 안내할 수 있다.

이번 연구에 참여한 다름슈타트 공과대학교의 컴퓨터 과학 교수 크리스티안 커스팅(Kristian Kersting)은 AI 시스템이 원본 이미지를 거의 그대로 유지한다고 설명한다.

텍스트, 포즈이(가) 표시된 사진  자동 생성된 설명

다름슈타트 공과대학교의 박사 과정 학생으로서 페어 디퓨전 개발에 참여한 펠릭스 프레드리히(Felix Friedrich)는 이 방법을 사용하면 많은 시간을 들여 AI 모델 훈련에 사용되는 편향된 데이터 세트를 개선하지 않고도 원하는 이미지를 만들 수 있다고 주장한다.

그러나 이 도구에도 결함은 있다. ‘설거지 담당자(dishwasher)’와 같은 일부 직업에 대한 이미지 변경 기능은 정상적으로 작동하지 않았다. 해당 단어가 직업 외에 기계(식기세척기)를 의미할 수도 있기 때문이다. 또한 새로운 도구는 제3의 성별을 인식하지 못하며 궁극적으로 모델이 생성할 수 있는 사람들의 다양성은 여전히 AI 시스템의 학습 데이터 세트에 포함된 이미지로 제한된다. 추가 연구가 필요하지만, 이 도구는 AI 모델들의 편향성을 완화하는 데 있어 중요한 성과가 될 수 있다.

이와 유사한 기술은 언어 모델에서도 효과가 있는 것으로 나타났다. 필자의 동료 나일 퍼스(Niall Firth)가 최근 기사를 통해 다룬 것처럼 AI 연구소 앤스로픽(Anthropic)에서 진행한 연구에 따르면 단순한 지시만으로 대형 언어모델이 덜 유해한 콘텐츠를 생성하도록 유도할 수 있다. 앤스로픽 팀은 다양한 크기의 언어모델 여러 개를 테스트했으며 모델의 크기가 충분히 크면 단순한 지시만으로도 언어모델이 일부 편향을 자체 수정한다는 사실을 알아냈다.

연구원들은 텍스트 및 이미지 생성 AI 모델이 왜 이런 작업을 수행하는지 알지 못한다. 앤스로픽 팀은 AI 모델의 크기가 클수록 학습 데이터 세트의 크기도 커지기 때문일 것이라고 짐작한다. 다량의 학습 데이터에는 편견이나 고정관념에 사로잡힌 행동들이 다수 포함되지만 반대로 이처럼 편향적인 행동을 비판하는 사람들의 사례도 함께 수집된다.

AI 도구는 스톡 이미지를 생성하는 데 점점 더 폭넓게 사용되고 있다. 커스팅은 페어 디퓨전과 같은 도구가 사회의 다양성을 반영한 홍보용 사진을 찾는 회사에 유용할 수 있다고 말한다.

AI의 편향성을 완화하는 기술들에 대한 반응은 긍정적이며 이러한 기술을 개발 초기부터 AI 모델에 적용해야 하는가에 대한 질문도 자연스럽게 제기되고 있다. 현재 우리가 사용 중인 가장 뛰어난 생성형 AI 도구는 유해한 고정관념을 대규모로 심화한다.

편향성은 뛰어난 공학 기술로 바로잡을 수 있는 문제가 아니라는 점도 기억해야 한다. 미국 국립 표준 기술 연구소(US National Institute of Standards and Technology, 이하 NIST)의 연구원들이 2022년 보고서에서 밝힌 것처럼 편향성에는 데이터와 알고리즘 이상의 다양한 요소들이 작용한다. 인간이 AI 도구를 활용하는 방식과 AI 도구가 사용되는 더 넓은 사회적 맥락에 대한 조사가 필요하며, 이러한 모든 노력이 편향성 문제를 해결하는 데 도움이 될 수 있다.

NIST에 따르면 편향성을 효과적으로 완화를 위해서는 AI 모델 개발 방법과 모델에 포함되는 데이터에 대한 감사, 평가 및 투명성 확보 작업이 대폭 강화되어야 한다. 그러나 생성형 AI를 둘러싼 허황된 골드 러시(gold rush) 속에서 이러한 과제가 수익 창출에 밀려 후순위가 될까 우려된다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.