OpenAI’s hunger for data is coming back to bite it
오픈AI의 데이터 욕망, 부메랑이 되어 돌아오나
이탈리아가 챗GPT를 차단하며 촉발된 개인정보 수집 문제는 이제 전 세계로 확장되고 있다. 남은 일주일 동안 펼쳐질 일들이 향후 오픈AI의 방향을 크게 좌우할 수 있다.
오픈AI가 이탈리아 데이터보호청(GPDP)로부터 챗GPT의 일시적 사용 금지 처분을 받으면서 다른 유럽연합(EU) 국가들도 잇따른 조사에 착수에 착수했다. 이에 따라 오픈AI가 유럽연합(EU) 일반 개인정보보호법(GDPR) 준수를 위한 조치를 할 수 있는 유예기간이 이제 일주일 앞으로 다가왔다. 이를 지키지 못할 시, 오픈AI는 막대한 벌금을 물거나 데이터를 강제로 삭제해야 할 수도 있고, 심지어 챗GPT 사용 자체가 금지될 수도 있다.
하지만 전문가들은 MIT 테크놀로지 리뷰와의 인터뷰에서 오픈AI가 이 규정을 준수하는 것은 거의 불가능하다고 말했다. 오픈AI가 AI 모델을 학습시키는 데 사용한 데이터는 인터넷상의 콘텐츠를 빨아들이는 방식으로 수집되기 때문이다.
AI 모델 개발에서 일반적인 통념은 ‘학습 데이터는 많을수록 좋다’는 것이다. 오픈AI의 GPT-2 모델은 40기가바이트의 텍스트로 구성된 데이터 세트를 학습했다. 챗GPT의 기반이 되는 GPT-3는 570기가바이트의 데이터를 학습했다. 오픈AI는 최신 모델인 GPT-4의 데이터 세트 규모는 공개하지 않았다.
하지만 더 큰 모델에 대한 갈망은 오픈AI를 다시 압박하고 있다. 지난 몇 주 동안 서구의 여러 데이터 보호 당국은 오픈AI가 챗GPT에 사용하는 데이터를 수집하고 처리하는 방식을 조사하기 시작했다. 데이터보호 당국은 오픈AI가 이름이나 이메일 주소와 같은 사람들의 개인 정보를 스크랩해 동의 없이 사용했다고 의심하고 있다.