A watermark for chatbots can expose text written by an AI

챗봇용 워터마크로 AI 생성 텍스트를 구분하기

AI가 생성한 텍스트에 워터마크를 삽입하는 기술은 교사들이 학생이 쓴 에세이의 표절 여부를 판별하고, 소셜미디어 플랫폼이 허위 정보를 퍼뜨리는 봇(bot)에 대항할 수 있도록 도와줄 수 있을 것이다.

인공지능(AI)이 생성한 텍스트에 보이지 않는 패턴을 의도적으로 삽입하여 현재 읽고 있는 단어를 사람이 썼는지 여부를 나타내는 단서로 활용할 수 있다.

이러한 ‘워터마크(watermark)’는 육안으로 볼 수 없지만, 컴퓨터는 이를 통해 해당 텍스트가 AI 시스템에서 생성되었을 가능성을 판별할 수 있다. 만약 워터마크가 대형 언어 모델에 적용된다면 이러한 언어 모델들로 인해 이미 발생한 문제 중 일부를 방지할 수 있을 것으로 보인다.

예를 들어 오픈 AI(OpenAI)가 지난해 11월 챗 GPT(ChatGPT)라는 챗봇을 출시한 후, 학생들은 이미 이 언어 모델을 사용하여 에세이를 작성하는 부정행위를 저지르기 시작했다. 뉴스 웹사이트인 씨넷(CNET)은 챗 GPT를 사용하여 기사를 작성했다가 표절 의혹에 휘말려 정정 기사를 발표하는 곤욕을 치렀다. 이와 같은 AI 생성 기사를 보도하기 전 해당 시스템에 워터마킹(watermarking) 방식을 도입한다면 이러한 문제를 해결할 수 있을 것이다.

이러한 워터마크는 이미 여러 연구에 활용되며 AI 생성 텍스트들을 거의 완벽하게 판별해냈다. 예를 들어 메릴랜드 대학교(University of Maryland) 연구원들은 자체 개발한 감지 알고리즘으로 메타(Meta)의 오픈 소스 언어 모델인 OPT-6.7B가 생성한 텍스트를 찾아낼 수 있었다. 해당 결과가 실린 논문에 대한 동료 평가는 아직 진행되지 않았으며, 사용된 워터마크는 2월 15일경에 무료로 공개될 예정이다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!