AI language models are rife with different political biases

서로 다른 정치적 편향을 가진 AI 언어모델들

AI 언어모델의 종류에 따라 우편향 또는 좌편향된 답변을 내놓는다는 새로운 연구 결과가 나왔다.

기업은 사회적 책임을 가져야 할까? 아니면 오직 주주들에게 이익을 제공하기 위해 존재할까? 이 질문에 대한 답은 어떤 AI 언어모델을 사용할지에 따라 크게 달라질 수 있다. 오픈AI의 이전 모델 GPT-2와 GPT-3 에이다(GPT-3 Ada)는 전자를 지지하겠지만, 더 개선된 모델인 GPT-3 다빈치(GPT-3 Da Vinci)는 후자에 동의할 것이다. 

워싱턴 대학교, 카네기멜런 대학교, 시안 교통대학교가 공동 수행한 새로운 연구에 따르면, AI 언어모델마다 답이 다른 이유는 그들이 서로 다른 정치적 편향을 갖고 있기 때문이다. 연구팀이 14개의 대형 언어모델을 대상으로 테스트를 진행한 결과, 오픈 AI의 챗GPT와 GPT-4가 가장 좌편향된 자유주의적 성향을 보였고 메타의 라마(LLaMA)는 가장 우편향된 권위주의적 성향을 보였다. 

연구팀은 페미니즘과 민주주의 같은 다양한 주제를 놓고 각 언어모델에 그들의 생각을 물었다. 생성된 답변은 ‘정치 나침반(political compass)’이라는 정치 성향을 보여주는 그래프를 제작하는 데 활용했다. 그런 다음, 정치적으로 더욱 편향된 학습 데이터로 모델들을 다시 학습시켜 혐오 표현과 잘못된 정보를 식별하는 행동과 능력에 변화가 있는지 테스트했다. 동료 검토를 마친 이 연구 논문은 지난  7월 전산언어학협회(Association for Computational Linguistics)의 최우수 논문상을 받았다. 

AI 언어모델이 수백만 명이 사용하는 제품과 서비스에 적용됨에 따라 모델들의 정치적 가정과 편향을 이해하는 일은 매우 중요해졌다. 이것이 향후 문제가 될 수 있기 때문이다. 건강 관리에 대한 조언을 제공하는 챗봇이 낙태나 피임에 대한 조언을 거부하거나, 고객 서비스 봇이 이치에 맞지 않는 공격적인 말을 내뱉을 수도 있다. 

챗GPT의 성공 이후, 오픈AI는 이 챗봇이 더 자유주의적인 세계관을 반영하고 있다는 우익 논평가들의 비판에 직면했다. 오픈AI는 이러한 우려를 해결하기 위해 노력하고 있다고 주장한다. 그들은 공식 블로그를 통해 AI 모델을 미세 조정하는 인간 검수자들에게 어떤 정치 집단에 대한 선호도 반영하지 않을 것을 지시하고 있다고 밝혔다. 이어서 “이러한 과정을 거침에도 나타나는 편향은 버그(오류)로, 우리 AI 모델의 특징이라고 할 수 없다”고 덧붙였다. 

그러나 연구에 참여한 카네기멜런 대학교의 박찬영(Chan Young Park) 박사연구원은 오픈AI의 주장에 동의하지 않는다. 박 연구원은 “우리는 어떤 언어모델도 정치적 편향에서 자유로울 수 없다고 생각한다”라고 말했다. 

모든 단계에서 정치적 편향이 나타났다

연구팀은 AI 언어모델이 정치적 편향을 어떻게 받아들이는지 역설계하기 위해 AI 모델을 개발하는 3단계를 적용해 검토를 진행했다. 

1단계에서는 14개의 언어모델에 62가지의 정치적으로 민감한 주장에 대한 동의 또는 반대 여부를 물었다. 이를 통해 모델들의 기본적인 정치적 성향을 확인하고 정치 나침반에 표시했다. 그 결과 놀랍게도 AI 모델들이 뚜렷하게 다른 정치적 성향을 보이고 있었다고 박 연구원은 설명했다.  

연구팀은 구글이 개발한 AI 언어모델 버트(BERT) 모델들이 오픈AI의 GPT 모델들보다 사회적으로 더 보수적인 성향을 보인다는 사실을 알아냈다. 다음에 올 단어를 예측해 문장을 생성하는 GPT 모델들과 달리, 버트 모델들은 어떤 텍스트와 관련된 정보를 활용해 문장을 부분적으로 예측한다. 연구팀은 최근에 출시된 GPT 모델들이 자유주의적 성향의 인터넷 텍스트로 학습했지만, 이전의 버트 모델들은 서적을 통해 학습했기 때문에 사회적으로 보수적인 성향을 보일 수 있다고 추정했다. 

또한 AI 모델들은 시간이 지남에 따라 정치 성향에 변화를 보이는데, 이는 테크 기업들이 데이터 세트와 학습 방법을 업데이트하기 때문이다. 예를 들어, 오픈AI의 GPT-2 모델은 “부자에게 세금을 부과하는 것”을 지지하지만, 나중에 나온 GPT-3 모델은 이를 지지하지 않았다. 

메타(Meta)의 대변인은 회사가 라마 2(Llama 2)의 개발 방법에 대한 정보를 공개했으며, 편향을 줄이기 위해 모델을 미세 조정한 방법도 함께 공개했다고 말했다. 또한 “메타는 투명한 방식으로 모델의 취약점을 식별 및 완화하고 더 안전한 생성형 AI의 개발을 지원하기 위해 업계와 지속적으로 협력할 것”이라고 밝혔다. 구글은 MIT 테크놀로지 리뷰의 기사에 대한 코멘트 요청에 응답하지 않았다. 

샹빈 펑(Shangbin Feng), 박찬영, 유한 리우(Yuhan Liu), 율리아 츠베코프(Yulia Tsvetkov)가 제작한 그래프. AI 언어모델들이 뚜렷하게 다른 정치 성향을 나타내는 것을 볼 수 있다. 

2단계에서는 오픈AI의 GPT-2와 메타의 로베르타(RobERTa) 두 언어모델을 우편향 및 좌편향 된 뉴스 및 소셜 미디어 데이터로 구성된 데이터 세트로 추가 학습시키는 과정을 진행했다고 박 연구원은 설명했다. 연구팀은 학습 데이터가 정치적 편향에 영향을 미쳤는지 확인하고자 했다. 

연구팀은 이러한 과정이 언어모델들의 편향을 더 강화했음을 발견했다. 좌편향 데이터로 학습한 모델은 더 좌편향됐고, 우편향 데이터로 학습한 모델은 더 우편향됐다. 

3단계에서는 AI 모델의 정치 성향이 어떤 콘텐츠를 혐오 발언과 잘못된 정보로 분류하는 데 영향을 미치는지 확인했다. 그 결과 연구팀은 AI 모델마다 현저한 차이가 있음을 알아냈다. 

좌편향 데이터로 학습된 모델들은 흑인이나 LGBTQ+ 같은 미국의 소수 민족, 종교, 성적 소수자를 대상으로 한 혐오 발언에 더 민감한 반응을 보였다. 반면, 우편향 데이터로 학습된 모델들은 백인 기독교 남성에 대한 혐오 발언에 더 민감했다. 

좌편향 언어모델들은 우편향된 출처의 잘못된 정보를 잘 식별했지만, 좌편향된 출처의 잘못된 정보에는 비교적 덜 민감했다. 반면, 우편향 언어모델은 이와 반대되는 행동을 보였다. 

편향된 데이터 세트를 제거하는 것만으로는 부족하다

박 연구원은 외부 관찰자들이 AI 모델들이 다른 정치적 편향을 가지는 이유를 알 도리가 없다고 말했다. 테크 기업들이 언어모델 학습에 사용한 데이터나 학습 방식에 대한 세부 사항을 공개하지 않기 때문이다. 

연구팀은 언어모델들의 편향을 완화하기 위해 데이터 세트에서 편향된 콘텐츠를 제거하거나 필터링하는 방법을 시도했다. 다트머스 대학교의 컴퓨터 공학부 조교수인 소로시 보소우기(Soroush Vosoughi)는 “이 논문이 던지는 주된 질문은 데이터의 편향을 제거하면 언어모델의 편향도 제거할 수 있느냐다. 그리고 그 답은 ‘아니오’다”라고 말했다. (참고로 보소우기는 이번 연구에 참여하지 않았다) 

보소우기는 데이터베이스 내 광범위하게 자리한 편향을 완전히 제거하기는 매우 어려운 데다, AI 모델들은 데이터에 존재할 수 있는 낮은 수준의 편향조차 쉽게 드러내는 경향이 있다고 설명했다. 

AI 언어모델의 정치적 편향을 연구하는 구글 딥마인드(DeepMind)의 연구 과학자 루이보 리우(Ruibo Liu)는 이 연구의 한계가 GPT-2와 로베르타 같은 비교적 오래되고 작은 규모의 언어모델들로 2단계와 3단계를 수행한 점이라고 지적했다. (참고로 루이보 리우는 이번 연구에 참여하지 않았다)

리우는 이 연구의 결론이 최신 AI 모델에도 적용되는지 궁금하다고 말했다. 그러나 학계의 연구원들은 챗GPT와 GPT-4 같은 첨단 AI 시스템의 내부 구조에 접근할 수 없기 때문에 분석을 수행하기 어렵다. 

또 다른 한계는 AI 모델들은 사실이 아닌 내용을 지어내는 경향이 있기 때문에 “AI 모델의 응답 내용이 실제 모델이 설계된 ‘내부 상태’를 반영하지는 않을 수도 있다”고 보소우기는 덧붙였다.  

연구팀은 또한 정치 나침반 테스트가 정치 성향을 구별하는 데 보통 사용되지만, 모든 정치적인 뉘앙스를 측정할 수 있는 완벽한 방법은 아님을 인정했다. 

박 연구원은 “기업들이 AI 모델을 제품과 서비스에 통합함에 따라 중립성을 지키기 위해서는 이러한 정치적 편향이 모델의 행동에 어떤 영향을 미치는지 더 잘 알아야 한다”라고 말했다. 그리고 “편향을 인식하지 못하는 이상 중립성도 지킬 수 없을 것”이라고 강조했다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.