OpenAI’s latest blunder shows the challenges facing Chinese AI models

조핸슨 목소리 모방이 다가 아니다…오픈AI가 저지른 또 다른 큰 실수

중국 인터넷의 구조적 문제로 인해 AI 모델을 학습시키기 위한 고품질 중국어 데이터를 구하기가 매우 어렵다.

오픈AI가 최근 음성, 텍스트, 영상을 통해 사용자와 상호작용할 수 있는 새로운 AI ‘옴니모델(omnimodel)’ GPT-4o를 공개했다. 오픈AI는 GPT-4o가 사용 편의성 면에서 중대한 진전을 이룬 모델이라고 홍보했지만 이 모델을 공개하고 불과 며칠 만에 아주 난처한 상황에 처하게 됐다. AI의 위험을 연구하는 안전팀 대부분이 사임한 것도 모자라 배우 스칼릿 조핸슨이 자신이 동의한 적이 없는데도 불구하고 오픈AI가 GPT-4o에 자신의 목소리와 유사한 목소리를 사용했다고 비난하면서 대책을 강구해야 하는 처지에 빠진 것이다.

그런데 오픈AI가 GPT-4o에서 실수한 게 하나 더 있다. 바로 GPT-4o의 토크나이저(tokenizer·AI 모델이 텍스트를 더 효율적으로 구문 분석하고 처리할 수 있게 지원하는 도구)를 학습시키는 데 사용한 데이터가 중국의 스팸 웹사이트로 인해 오염되어 있었던 것이다. 결과적으로 GPT-4o의 중국어 토큰 라이브러리는 포르노와 도박과 관련된 문구로 도배되었다. 이럴 경우 환각 성능 저하, 오용 등 AI 모델에서 흔히 발생하는 고질적인 문제가 더 악화될 수 있다.

전문가들은 비영어권 언어 지원을 개선하기 위해 상당히 업데이트된 GPT-4o의 공개 토큰 라이브러리를 살펴본 뒤 이 모델에서 가장 긴 중국어 토큰 100개 중 90개 이상의 출처가 스팸 웹사이트라는 사실을 발견했다. 여기에는 ‘일본 포르노 영상 무료 감상’, ‘베이징 자동차 경주 베팅’, ‘매일 구매하는 중국 복지복권’ 같은 구문들이 포함되어 있었다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!