fbpx
How OpenAI stress-tests its large language models

대형언어모델의 폭주 막을까…새로운 테스트 방식 공개한 오픈AI

오픈AI가 대형언어모델(LLM)이 차별적이거나 폭력적인 대답을 내놓는 걸 막기 위한 안전성 테스트 방법을 공개했다. 하지만 AI 모델의 위험 요소를 완전히 차단하기는 쉽지 않다.

오픈AI가 자체적으로 수행한 안전성 테스트 프로세스의 일부를 다시 한번 공개했다. 오픈AI는 앞서 지난달 챗GPT가 사용자의 이름에 따라 성별이나 인종에 관한 유해한 고정관념을 생성하는 빈도를 조사한 결과를 공개한 바 있다. 이번에는 대형언어모델(LLM)에 대한 안전성 테스트를 실시해 유해하거나 바람직하지 않은 행동을 식별하는 방법을 담은 두 편의 논문을 발표했다. 시스템이나 모델의 취약성을 찾아내 수정하기 위한 일명 ‘레드팀(red team)’ 테스트를 한 것이다.

현재 LLM은 수백만 명의 사람들이 매우 다양한 용도로 사용하고 있다. 하지만 오픈AI가 인정했듯이, 이 모델은 인종 차별, 여성 혐오, 증오성 콘텐츠를 생성하고, 개인 정보를 노출하며, 편견과 고정 관념을 강화하고, 사실에 근거하지 않은 정보를 만들어내는 한계를 안고 있다. 오픈AI는 이러한 문제를 최소화하기 위한 자구책들을 공유하고자 한다.

MIT 테크놀로지 리뷰는 이 작업에 단독 사전 검토자로 참여했다. 오픈AI에서 작성한 첫 번째 논문은 오픈AI가 자사 모델을 출시하기 전에 외부의 다양한 인간 평가자 네트워크를 통해 모델의 행동을 점검하는 내용을 담고 있다. 두 번째 논문에서는 GPT-4와 같은 LLM을 사용하여 오픈AI가 개발한 자체 보호 장치를 우회할 수 있는 새로운 방법을 찾아내는 방식으로 테스트 일부를 자동화하는 방법을 소개한다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!