How to poison the data that Big Tech uses to surveil you

빅테크 기업의 데이터 우물에 독 풀기

적절한 데이터가 없으면 알고리즘은 소용이 없다. 우리가 데이터를 이용하여 변화를 요구할 수 있는 이유다.

사람들은 매일 디지털 흔적을 남기고, 빅테크 기업은 이 흔적을 이용해 사용자를 추적한다. 사람들은 이메일을 보내고, 음식을 주문하며, 방송을 다운로드하여 재생한다. 빅테크 기업은 사용자의 취향을 잘 파악하기 위해서 중요한 데이터 패킷을 저장한다. 이 데이터는 머신러닝 알고리즘에 입력되어 광고와 추천으로 사람들의 시선을 끈다. 구글은 고객의 데이터를 이용하여 연간 1,200억 달러 이상의 광고 수익을 올린다.

이런 상황에서 벗어나기란 점점 더 불가능하다. 2019년, 당시 기즈모도(Gizmodo) 기자였던 카슈미르 힐(Kashmir Hill)은 5대 빅테크 기업의 제품과 서비스를 사용하지 않고 살아보려는 실험으로 화제가 되었다. 힐 기자는 6주 동안 기본적인 디지털 기능을 이용하는 것마저 어려운 상태에서 힘겹게 지내야 했다. 반면 이 기업들은 아무런 영향도 받지 않았다.

현재 노스웨스턴대학 연구팀은 우리들의 집합적 데이터를 협상 카드로 삼아 기업과 개인간 힘의 불균형을 해소할 새로운 방법을 제안한다. 첨단 기업은 성능이 뛰어난 알고리즘을 마음대로 사용할 수 있지만, 훈련에 적합한 데이터가 충분하지 않다면 아무 소용이 없다.

미국컴퓨터학회(Association for Computing Machinery: ACM)의 공정성, 책임성 및 투명성 컨퍼런스에서 새 논문이 발표된다. 이 논문에서 박사과정생 니콜라스 빈센트(Nicholas Vincent)와 한린 리(Hanlin Li) 등의 연구원들은 사람들이 활용할 수 있는 세 가지 방법을 제안한다.

  • 데이터 파업(Data Strike): 이 개념은 노조 파업에서 유래되었다. 개인정보 제공을 보류하거나 개인정보를 삭제해 기업이 활용하지 못 하게 하는 것이다. 플랫폼을 탈퇴하거나 개인정보 보호 도구를 설치하는 것을 예로 들 수 있다.   
  • 데이터 오염(Data Poisoning): 의미 없거나 유해한 데이터를 제공하는 것이다. 예를 들면, 애드너심(AdNauseam)은 사용자에게 제공되는 모든 광고를 클릭하는 브라우저 확장 프로그램으로, 구글의 이용자 타겟 광고 알고리즘에 혼란을 초래한다.
  • 의식적 데이터 기여(Conscious Data Contribution): 텀블러(Tumblr)에 페이스북 사진을 업로드하는 등 경쟁 업체에 의미 있는 데이터를 제공하는 행위를 뜻한다.

사람들은 프라이버시 보호를 위해 이미 이런 방법을 많이 사용한다. 특정 웹 사이트 차단을 위해 검색 결과를 수정하는 브라우저 확장 프로그램이나 광고 차단 프로그램을 사용한 적이 있다면, 여러분은 데이터 파업에 참여해 데이터 사용 권리에 대한 반환을 요구한 적이 있는 셈이다. 그러나 힐 기자가 파악한 것처럼, 이런 산발적 개별 행동은 빅테크 기업의 행동 방식에 별다른 영향을 미치지 않는다.

만약 수백만 명의 사람들이 기업의 데이터를 오염시키기 위해 협력한다면 어떻게 될까? 이렇게 되면 사람들의 요구에 힘이 실리지 않을까.

여기에 해당되는 몇 가지 사례가 있다. 지난 1월 페이스북이 왓츠앱 데이터를 페이스북 자회사와 공유하겠다고 발표하자 수백만 명의 사용자들이 왓츠앱 계정을 삭제하고, 시그널(Signal)과 텔레그램 같은 경쟁사로 이탈했다. 사용자 대거 탈퇴로 페이스북의 정책 변경이 지연되었다.

구글도 최근 온라인 사용자 추적과 고객 타겟팅 광고를 중단하겠다고 밝혔다. 빈센트는 구글의 발표가 진정한 변화를 나타내는 것인지 아니면 생색내기에 불과한 지는 알 수 없지만, 애드너심 같은 도구 사용 증가로 알고리즘의 효율성이 떨어져서 구글이 결국 이런 결정을 내렸을 가능성이 있다고 주장한다. (빈센트는 데이터 레버리지 이동(Data Leverage Movement)이 얼마나 영향을 미쳤는지는 개별 기업만 알고 있다고 밝혔다)

빈센트와 리는 이런 행동이 빅테크 기업에 대한 저항 운동에서 정책 활동 및 노동조합 같은 전략을 보완할 수 있다고 생각한다.

샌프란시스코대학 응용 데이터 윤리 센터(Center for Applied Data Ethics) 연구원이며 본 연구에는 참여하지 않은 알리 알카티브(Ali Alkhatib)는 “이런 연구가 진행되는 것을 보니 짜릿하다”고 밝혔다. 그는 “집단적이거나 전체적인 관점이 고려되니까 정말 흥미로웠다. 정보 우물을 망가뜨리겠다고 위협을 통해 우리의 요구를 내세울 수 있다. 이것은 우리의 데이터와 관련된 문제이고, 정보는 결국 한 우물로 모이기 때문이다”라고 말했다.

이런 행동을 널리 확산시키기 위해서는 아직 해결해야 할 문제가 남아있다. 컴퓨터 과학자들은 애드너심 같은 도구 개발에서 막중한 역할을 하는데, 덕분에 불필요한 장벽은 낮아지고 사람들의 참여는 증가한다. 정책입안자들도 도움을 줄 수 있다. 데이터 파업은 유럽연합(EU)의 일반 데이터 보호 규칙(GDPR, General Data Protection Regulation)처럼 강력한 데이터 프라이버시 법에 따라 보호될 때 가장 효과가 크다. GDPR은 사람들에게 데이터 삭제를 요구할 권리를 제공한다. 이러한 규정이 없으면, 사용자가 계정을 제거할 수 있다고 하더라도 기술 회사가 디지털 기록 삭제 옵션을 제공한다고 보기 어렵다.

아직 해결이 필요한 문제도 남아있다. 어떤 회사의 알고리즘을 손상시키려면 데이터 파업에 몇 명이나 필요한가? 특정 시스템을 오염시키려면 어떤 종류의 데이터가 가장 효과적일까? 영화 추천 알고리즘 시뮬레이션에서, 연구진은 사용자의 30%가 파업할 경우 시스템 정확도가 50%까지 하락할 수 있다는 것을 알았다. 그러나 모든 머신러닝 시스템은 서로 다르며, 기업은 지속적으로 시스템을 업데이트한다. 연구원들은 머신러닝 업계 사람들이 서로 다른 회사 시스템에 대해 유사 시뮬레이션을 실행하여 어느 부분이 약한지 파악할 수 있기를 바란다.

알카티브는 학자들이 집단 데이터 행동을 장려하는 방법에 대해서도 연구를 많이 해야 한다고 주장한다. 그는 “집단 행동을 추진하는 것은 상당히 어렵다”며 “사람들이 현재 진행 중인 활동에 참여하도록 하는 것이 하나의 과제이다. 또 일시적으로 인터넷을 사용하고 스쳐 가는 사람들 (예를 들어 5초 간 검색 엔진을 이용하는 사람들)이 공동체의 일원으로 스스로 느끼게끔 하는 것도 관건이다”라고 말했다.

알카티브는 “이러한 전략은 신중한 조사가 필요한 예상 외의 파급 효과를 일으킬 수도 있다”라고 덧붙였다. 데이터 오염 전략이 그저 컨텐츠 중재자와 기업의 인공지능 훈련 데이터 정리(Cleaning) 및 라벨링(Labeling) 담당자에게 더 많은 일감을 안겨주는 것으로 끝나게 되지는 않을까?

그러나 전반적으로 빈센트, 리, 알카티브는 낙관적이다. 데이터 레버리지는 거대 기술 기업이 사람들의 데이터와 프라이버시를 어떻게 다루는지 보여주는 설득력 있는 도구로 전환될 수 있다. 빈센트는 “AI 시스템은 데이터에 의존한다. 그것이 AI의 작동 방식이다”라며 “결국 사람들은 데이터를 통해 힘을 되찾을 수 있을 것”이라고 주장한다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.