Facebook wants machines to see the world through our eyes

페이스북, 인간의 눈으로 세상을 보는 AI를 원한다

페이스북 AI 연구소가 1인칭 시점에서 촬영한 동영상을 모은 역대 최대 규모의 동영상 데이터베이스를 구축했다. 이것으로 사람들의 일상생활에 도움이 되게 AI를 훈련시킬 수 있지만, 프라이버시 침해 우려 등 장래에 이것의 이용 방법을 둘러싸고 여러 가지 우려도 제기되고 있다.

우리는 기계가 사진이나 영상 속 대상을 인식하는 것을 당연하게 생각한다. 그런데 이 기능은 이미지넷(ImageNet)과 같은 대규모 데이터 세트에 의존하고 있다. 이미지넷은 알고리즘이 아닌 인간의 손으로 직접 큐레이션한 수백만 장의 사진 데이터 세트로, 지난 10년간 여러 뛰어난 사진 인식 모델들을 훈련시키는 데 이용됐다.

하지만 데이터 세트에 들어있는 사진은 정선된 대상의 세계를 보여줄 뿐이며 실제 우리가 경험하는 대로 일상생활의 모습을 포착하지는 못한다. 그러므로 기계가 우리가 보는 대로 보게 하려면 완전히 새로운 방법이 필요하다. 이 방법을 먼저 찾기 위해 페이스북 AI 랩이 나섰다.

페이스북이 최근 새롭게 시작한 ‘에고4D(Ego4D)’라는 AI 개발 프로젝트는 방관자가 아닌 당사자 시점에서 장면과 활동을 이해할 수 있는 AI를 만드는 것을 목표로 한다. 제3자에 의해 찍힌 예쁜 액자에 들어있는 것 같은 장면이 아니라 역동적으로 움직이면서 고프로(GoPro) 로 찍은 흔들리는 영상을 떠올려 보자. 페이스북은 이미지넷이 사진에 했던 일을 에고4D가 1인칭 영상에 해주기를 바란다.

지난 2년 동안 페이스북 AI 연구소(Facebook AI Research, FAIR)는 전 세계 13개 대학과 협업하여 1인칭 시점에서 촬영한 동영상을 모아 역대 최대 규모의 동영상 데이터 세트를 구축했다. 이는 특히 딥러닝 사진 인식 모델을 학습하기 위해 만들어졌다. 이 데이터 세트로 학습한 AI는 사람과 상호작용하는 로봇을 제어하거나 스마트 안경에서 사진을 해석하는 데 더 능숙할 것이다. “기계들이 우리 눈에 비친 세상을 진정으로 이해해야 우리 일상을 도울 수 있을 것이다.” FAIR에서 프로젝트를 이끄는 크리스틴 그라우먼(Kristen Grauman)은 말한다.

이러한 기술은 가정에서 보조가 필요한 사람을 돕거나, 학습 과정에 있는 사람들을 인도할 수 있을 것이다. “본 데이터 세트의 영상은 사람이 세계를 관찰하는 방식에 훨씬 더 가깝다.” 에고4D 소속은 아니지만, 구글 브레인(Google Brain)과 뉴욕의 스토니브룩 대학에서 컴퓨터 시각을 연구하고 있는 마이클 류의 말이다.

기술 오용의 우려

그러나 기술이 오용될 가능성에 대한 우려도 있다. 이 연구는 최근 미국 상원에서 사람들의 안위보다 회사의 이익을 우선시한다는 비난을 받은 소셜미디어 대기업인 페이스북의 자금 지원을 받고 있다. 이러한 비난은 MIT 테크놀로지 리뷰의 자체 조사에 의해서도 입증되었다.

페이스북을 비롯한 빅테크 기업들의 사업 모델은 사람들의 온라인 기록으로부터 최대한 많은 데이터를 짜내어 광고주들에게 판매하는 것이다. 이 프로젝트에서 간략히 소개된 AI는 사람들의 일상적인 오프라인 행동에까지 도달하여 정보를 획득할 수 있다. 집 주변에 어떤 물체가 있는지, 어떤 활동을 즐겼는지, 누구와 시간을 보냈는지, 심지어는 시선이 머무는 곳까지 들출 수 있다. 즉, 전례 없는 수준의 개인 정보가 드러날 위험이 있다.

그라우먼은 “실험연구 단계에서 상품화 단계로 넘어가기 위해서는 사생활 보호와 관련된 작업이 필요하다”면서 “그 작업은 오히려 이 프로젝트에서 영감을 받을 수도 있다”고 강조했다.

사진 하단 설명: 표준 컴퓨터 비전 모델은 3인칭 시점(왼쪽)에서 잘 작동하지만, 1인칭 시점(오른쪽)에서는 그렇지 않다.
FACEBOOK

앞서 존재하던 가장 큰 규모의 1인칭 영상 데이터 세트는 부엌에 있는 사람들의 100시간을 담은 영상으로 이루어졌다. 에코4D 데이터 세트는 9개국(미국, 영국, 인도, 일본, 이탈리아, 싱가포르, 사우디아라비아, 콜롬비아, 르완다), 73개 지역에서 855명이 촬영한 3,025시간짜리 영상으로 구성됐다.

참가자들은 나이와 배경이 달랐으며, 그중 일부는 제빵사, 정비공, 목수, 정원사처럼 시각적으로 흥미로운 직업 때문에 모집되었다.

이전의 데이터 세트는 일반적으로 사전에 내용이 ‘어느 정도 짜여진(semi-scripted)’ 몇 초 분량의 영상 클립으로 구성되었다. 한편 에고4D에서 참가자들은 한 번에 최대 10시간 동안 머리에 장착된 카메라로 1인칭 영상을 촬영했다. 여기에는 거리 산책, 독서, 빨래, 쇼핑, 반려동물과 놀기, 보드게임, 그리고 다른 사람과 상호작용하는 모습 등 대본 없는 일상의 모습이 담겼다. 일부 영상에는 오디오와 참가자의 시선에 대한 데이터가 함께 기록됐다. 류는 이런 종류의 데이터 세트는 최초라고 설명이다.

FAIR는 또한 이러한 종류의 AI를 개발하는 데 다른 연구자들도 참여할 수 있는 연구 과제들을 제시했다. 연구진은 착용자들의 일상적인 삶을 기록하는 페이스북의 최근 발표된 레이벤(Ray-Ban) 스마트 안경처럼, 스마트 안경에 내장되는 알고리즘을 기대하고 있다. 이는 증강현실, 혹은 가상현실 ‘메타버스(metaverse)’ 앱이 이론적으로 ‘내 자동차 열쇠가 어디 있지?’ 또는 ‘내가 처음으로 탔던 프랑스행 비행기에서 무엇을 먹었고 누구 옆에 앉았었지?’와 같은 질문에 답할 수 있다는 것을 의미한다. 증강현실 AI 비서는 당신이 무엇을 하려는지 이해하고 지시사항이나 유용한 사회적 신호를 줄 수 있다.

빠른 기술 발전 속도

이러한 일들은 공상과학처럼 보이지만 생각보다 우리 가까이에 와 있다. 대규모 데이터 세트는 연구를 가속한다. 그라우먼은 “이미지넷은 단기간에 큰 발전을 이끌어냈다”면서 “우리는 에고4D에도 같은 것을 기대할 수 있다. 인터넷 이미지 대신 세계에 대한 1인칭 시점에 대해서 말이다”라고 말했다.

촬영 기록이 모이자 르완다의 ‘대중 참여 형태(crowdsourced)’로 모인 작업자들이 총 25만 시간에 달하는 수천 개의 영상 클립을 시청하고, 촬영된 장면이나 활동을 묘사하는 수백만 개의 문장을 작성했다. 이러한 주석들은 인공지능이 무엇을 보고 있는지 이해하도록 학습시키는 데 사용될 것이다.

이 기술이 어떻게 될지, 얼마나 빨리 발전할지는 두고 볼 일이다. FAIR는 2022년 6월 이 과제에 기반한 공모전을 계획하고 있다. FAIR라는 연구실이 IT 거물인 페이스북과는 다르다는 점도 주목할 부분이다. 실제 내부에서는 페이스북의 바람직하지 못한 알고리즘에 대해 FAIR가 내놓은 기술적 수정안을 페이스북이 의도적으로 무시했다는 이야기가 있다. 하지만 페이스북은 그 연구에 자금을 지원하고 있고, 그 회사가 이 기술의 응용에 별로 관심 없는 척하는 것은 솔직하지 못한 일이다.

영상 기술에 특화된 인권단체인 ‘윗니스(Witness)’의 샘 그레고리는 이 기술이 시위나 경찰의 폭력행위를 기록하는 목격자들에게 유용할 수 있지만 상업적인 응용에 대한 우려가 이러한 이점보다 더 무겁다고 생각한다. 그는 카메라를 드는 방식만으로 개인을 식별하는 것이 가능하다고 언급했다. 시선 데이터는 이를 더 드러나게 할 것이다. “이는 매우 강력한 관심 지표(indicator of interest). 시선 데이터를 어떻게 저장할 것인가? 누가 그 데이터에 접근할 수 있는가? 이 데이터는 어떻게 처리되고 사용될 것인가?”

국제 비영리 단체 전자 프런티어 재단(Electronic Frontier Foundation)의 로리 미르는 페이스북의 평판과 핵심사업 모델이 곳곳에서 경종을 울리고 있다고 주장했다. “이제 많은 사람들은 페이스북이 그동안 사용자의 사생활을 보호하는 데 있어서 제대로 된 역할을 하지 못했으며, 사용자에게 영향을 미치기 위해 보안 감시 기능을 사용하고 있다는 것을 알고 있다. 이는 모두 사용자를 끌어들이고 이를 통해 돈을 지급하는 고객인 광고주들을 모집하기 위해서였다.” 미르는 증강현실과 가상현실과 관련하여 페이스북은 경쟁우위를 추구하고 있다며 “수집하는 데이터의 양과 종류를 확장하는 것이 그들에게 중요한 이슈”라고 덧붙였다.

페이스북은 앞으로의 계획에 대한 질문에 대해 제대로 된 답변을 내놓지 않았다. 페이스북 대변인은 다만 “에고4D는 순수하게 더 넓은 과학 공동체의 발전을 촉진하기 위한 연구”라면서 “현재 제품 응용이나 상업적 사용에 대해 말씀드릴 것은 없다”고만 말했다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.