fbpx
OpenAI has trained its LLM to confess to bad behavior

오픈AI, LLM ‘자백 시스템’ 테스트…AI 행동 원리 투명성 높인다

대형언어모델은 때때로 거짓 응답을 하거나 규칙을 우회하는 비정상적 동작을 보인다. 오픈AI는 이러한 문제를 완전히 차단할 수는 없지만, 최소한 모델이 스스로 이를 자백하도록 만드는 방법을 연구 중이다.

오픈AI가 대형언어모델(LLM)의 복잡한 내부 작동 과정을 들여다볼 수 있는 새로운 방식을 시험하고 있다. 오픈 AI 연구진은 모델이 특정 작업을 어떻게 수행했는지 설명하고 (많은 경우) 부적절한 동작까지 스스로 인정하는 ‘자백문’을 생성하도록 하는 데 성공했다.

LLM이 왜 특정한 방식으로 작동하는지, 특히 왜 때때로 사실과 다르게 답하거나 편법을 쓰거나 기만적인 태도를 보이는지를 규명하는 일은 현재 인공지능(AI) 분야에서 가장 주목받는 연구 주제 중 하나이다. 수조 원 규모의 AI 기술이 개발자가 기대하는 수준으로 폭넓게 활용되기 위해서는 무엇보다 신뢰성이 담보되어야 한다.

오픈AI는 자백 기능을 이러한 목표에 다가가기 위한 하나의 단계로 보고 있다. 보아즈 바라크(Boaz Barak) 오픈AI 연구원은 필자와의 단독 인터뷰에서 “아직 실험 단계이지만 초기 결과는 상당히 긍정적”이라며 “내부에서도 기대가 큰 작업”이라고 밝혔다.

한편 다른 연구자들은 LLM이 진실하게 응답하도록 훈련되었다 해도 그 진실성을 얼마나 신뢰할 수 있을지 의문을 제기한다.

자백문은 모델이 사용자의 요청에 대한 주요 응답을 생성한 뒤 주어진 지침을 얼마나 충실히 따랐는지 스스로 평가해 덧붙이는 두 번째 텍스트다. 이는 부적절한 동작을 원천적으로 차단하기보다, 모델이 그러한 동작을 했을 때 이를 감지하고 그 원인을 진단하는 데 목적이 있다. 바라크는 “모델의 현재 작동 원리를 파악함으로써 향후 버전에서 잘못된 동작을 방지할 수 있다”고 설명했다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!