OpenAI’s hunger for data is coming back to bite it

오픈AI의 데이터 욕망, 부메랑이 되어 돌아오나

이탈리아가 챗GPT를 차단하며 촉발된 개인정보 수집 문제는 이제 전 세계로 확장되고 있다. 남은 일주일 동안 펼쳐질 일들이 향후 오픈AI의 방향을 크게 좌우할 수 있다.

오픈AI가 이탈리아 데이터보호청(GPDP)로부터 챗GPT의 일시적 사용 금지 처분을 받으면서 다른 유럽연합(EU) 국가들도 잇따른 조사에 착수에 착수했다. 이에 따라 오픈AI가 유럽연합(EU) 일반 개인정보보호법(GDPR) 준수를 위한 조치를 할 수 있는 유예기간이 이제 일주일 앞으로 다가왔다. 이를 지키지 못할 시, 오픈AI는 막대한 벌금을 물거나 데이터를 강제로 삭제해야 할 수도 있고, 심지어 챗GPT 사용 자체가 금지될 수도 있다. 

하지만 전문가들은 MIT 테크놀로지 리뷰와의 인터뷰에서 오픈AI가 이 규정을 준수하는 것은 거의 불가능하다고 말했다. 오픈AI가 AI 모델을 학습시키는 데 사용한 데이터는 인터넷상의 콘텐츠를 빨아들이는 방식으로 수집되기 때문이다. 

AI 모델 개발에서 일반적인 통념은 ‘학습 데이터는 많을수록 좋다’는 것이다. 오픈AI의 GPT-2 모델은 40기가바이트의 텍스트로 구성된 데이터 세트를 학습했다. 챗GPT의 기반이 되는 GPT-3는 570기가바이트의 데이터를 학습했다. 오픈AI는 최신 모델인 GPT-4의 데이터 세트 규모는 공개하지 않았다.

하지만 더 큰 모델에 대한 갈망은 오픈AI를 다시 압박하고 있다. 지난 몇 주 동안 서구의 여러 데이터 보호 당국은 오픈AI가 챗GPT에 사용하는 데이터를 수집하고 처리하는 방식을 조사하기 시작했다. 데이터보호 당국은 오픈AI가 이름이나 이메일 주소와 같은 사람들의 개인 정보를 스크랩해 동의 없이 사용했다고 의심하고 있다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!