조핸슨 목소리 모방이 다가 아니다…오픈AI가 저지른 또 다른 큰 실수
오픈AI가 최근 음성, 텍스트, 영상을 통해 사용자와 상호작용할 수 있는 새로운 AI ‘옴니모델(omnimodel)’ GPT-4o를 공개했다. 오픈AI는 GPT-4o가 사용 편의성 면에서 중대한 진전을 이룬 모델이라고 홍보했지만 이 모델을 공개하고 불과 며칠 만에 아주 난처한 상황에 처하게 됐다. AI의 위험을 연구하는 안전팀 대부분이 사임한 것도 모자라 배우 스칼릿 조핸슨이 자신이 동의한 적이 없는데도 불구하고 오픈AI가 GPT-4o에 자신의 목소리와 유사한 목소리를 사용했다고 비난하면서 대책을 강구해야 하는 처지에 빠진 것이다.
그런데 오픈AI가 GPT-4o에서 실수한 게 하나 더 있다. 바로 GPT-4o의 토크나이저(tokenizer·AI 모델이 텍스트를 더 효율적으로 구문 분석하고 처리할 수 있게 지원하는 도구)를 학습시키는 데 사용한 데이터가 중국의 스팸 웹사이트로 인해 오염되어 있었던 것이다. 결과적으로 GPT-4o의 중국어 토큰 라이브러리는 포르노와 도박과 관련된 문구로 도배되었다. 이럴 경우 환각 성능 저하, 오용 등 AI 모델에서 흔히 발생하는 고질적인 문제가 더 악화될 수 있다.
전문가들은 비영어권 언어 지원을 개선하기 위해 상당히 업데이트된 GPT-4o의 공개 토큰 라이브러리를 살펴본 뒤 이 모델에서 가장 긴 중국어 토큰 100개 중 90개 이상의 출처가 스팸 웹사이트라는 사실을 발견했다. 여기에는 ‘일본 포르노 영상 무료 감상’, ‘베이징 자동차 경주 베팅’, ‘매일 구매하는 중국 복지복권’ 같은 구문들이 포함되어 있었다.