LLMs become more covertly racist with human intervention

인간이 막으려 개입하자 더 은밀하게 인종차별 일삼는 대형언어모델

언어모델의 규모가 커질수록 특정 편견이 오히려 더 심화되는 문제가 생길 수 있다는 사실이 연구를 통해 밝혀졌다.

챗GPT(ChatGPT) 같은 대형언어모델(large language model)은 인터넷에서 긁어모은 수백만 페이지에 달하는 자료를 학습 데이터로 사용한다. 따라서 대형언어모델이 그런 자료에 담긴 인종차별적 시각을 흡수한다는 것은 처음부터 명백한 사실이었다. 이에 개발자들은 언어모델이 흡수한 해로운 내용을 줄이기 위해 노력해 왔다. 그러나 새로운 연구에 따르면 특히 모델의 규모가 커질수록 개발자들의 노력이 노골적인 인종차별적 관점만 억제할 뿐이고, 은밀한 고정관념은 오히려 더 강해지고 더 잘 숨겨지는 것으로 나타났다. (이번 연구는 아카이브(arXiv)에 게재됐으며 아직 동료평가를 거치지 않았다.)

연구진은 오픈AI(OpenAI)의 GPT-4와 페이스북 및 구글의 구형 모델을 포함한 5개의 AI 모델에 미국 흑인영어(African-American English)를 사용하는 화자에 대한 판단을 요청했다. 지시사항에 화자의 인종은 언급하지 않았다.

연구 결과, 언어모델들은 두 문장의 의미가 같은 경우에도 표준 미국영어(Standard American English)를 사용하는 화자보다 미국 흑인영어를 사용하는 화자에게 ‘더러운(dirty)’, ‘게으른(lazy)’, ‘멍청한(stupid)’ 같은 표현을 더 많이 적용하는 것으로 나타났다. 언어모델들은 미국 흑인영어를 사용하는 화자를 덜 권위 있는 직업과 연관시키거나 또는 직업과 아예 연관시키지 않았으며, 미국 흑인영어를 사용하는 가상의 형사재판 피고인에 대한 판결을 요청했을 때는 사형을 권고할 가능성이 더 컸다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!