Language models might be able to self-correct biases—if you ask them

언어모델은 편향성을 자체적으로 수정할 수 있을까

AI 연구소 앤스로픽의 연구는 어떻게 간단한 자연어 명령으로 대형 언어모델이 덜 해로운 콘텐츠를 생성하게 할 수 있는지 보여준다.

대형 언어모델(large language model)은 편향성을 드러내는 것으로 악명이 높다. 이는 언어모델 학습에 사용되는 데이터에 인간이 만들어낸 끔찍한 콘텐츠들이 다량으로 포함되어 있기 때문이다.

그러나 규모가 충분히 크고 인간이 학습 과정에 도움을 준 언어모델들은 이러한 편향 중 일부를 스스로 고칠 수 있을지도 모른다. 놀랍게도 이러한 결과를 얻기 위해 우리가 해야 할 일은 언어모델에 편향을 수정하라고 요청하는 것뿐이다.

이러한 결과는 AI 연구소 앤스로픽(Anthropic)이 ‘인간 피드백 기반 강화학습(reinforcement learning from human feedback, RLHF)’으로 학습한 대형 언어모델을 분석한 실험에서 밝혀졌다(이번 논문은 아직 동료평가를 거치지 않았다). 인간 피드백 기반 강화학습은 사람이 개입하여 AI 모델이 더 바람직한 답변을 내놓도록 이끄는 기술이다.

연구원 어맨다 에스켈(Amanda Askell)과 딥 갱걸리(Deep Ganguli)는 이러한 언어모델에 ‘편향적이지 않은’ (심지어 ‘편향(bias)’이 무엇을 말하는지 정의할 필요도 없이) 결과물을 생산하도록 요청하는 것만으로 언어모델이 내놓는 결과물을 바꿀 수 있는지 알고 싶었다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!