How to fight hate online

온라인에서 증오와 싸우는 방법

데이터 과학자인 제니퍼 체이스는 우리가 컴퓨터 도구를 활용해 인터넷에서 '증오' 같은 잘못된 행동을 뿌리 뽑을 수 있다고 믿는다.

마이크로소프트와 학계에 머무는 동안 데이터 과학자인 제니퍼 체이스(Jennifer Chayes)는 데이터 과학과 컴퓨팅을 이용해 인공지능(AI)을 더 공정하고 덜 편향적으로 만들기 위해 애써왔다.

15살에 학교를 중퇴한 후 캘리포니아 대학 버클리 캠퍼스에서 데이터 과학의 최고 전문가가 되기까지 체이스는 꽤 많은 경력을 쌓아왔다. 그녀는 1987년 UCLA 수학과 종신 교수로 부임했고. 이후 10년 뒤 마이크로소프트의 권유로 학제간 ‘연구이론 그룹(Research Theory Group)을 공동 설립했다.

연구원들이 마이크로소프트의 안면 인식 소프트웨어가 ‘편향성 문제’를 일으킨다는 사실을 알아낸 것은 그녀가 뉴욕 마이크로소프트 연구실에서 일할 때였다. 연구원들은 안면 인식 소프트웨어가 황인과 흑인 얼굴보다 백인 얼굴을 더 정확하게 구분해 낸다는 것을 알아냈다. 그러자 마이크로소프트는 곧장 그러한 안면 인식 알고리즘으로부터 편향성을 제거하는 연구에 착수했다. 또 AI의 공정성(fairness), 책임감(accountability), 투명성(transparency), 윤리(ethics)를 중시하겠다는 의지를 드러내기 위해 이 네 영어 단어의 첫 글자를 따서 연구를 담당할 ‘FATE’ 그룹도 만들었다.

<MIT 테크놀로지 리뷰>의 아닐 아난타스와미 기자가 현재 캘리포니아 대학 버클리 캠퍼스에서 컴퓨팅·데이터 과학·사회과 부교수이자 정보학교 학장으로 있는 체이스를 만나서 데이터 과학이 컴퓨팅과 다른 분야를 어떻게 변화시키고 있는지 알아봤다.

Q: 학계를 떠나 산업계로 입성한 소감을 말해달라.
A: 정말 충격이었다. 마이크로소프트의 연구부문 부사장 댄 링(Dan Ling) 내게 전화를 걸어 면접을 보러 와 달라고 설득했다. 그와 40분 정도 이야기를 나누던 중 내가 마침내 이렇게 말했다. “내가 무엇 때문에 이직을 망설이는지 정말로 궁금하신가요? 마이크로소프트에는 한 무리의 사춘기 소년들만 가득한데, 저는 제 인생을 그들과 함께 보내고 싶지 않기 때문입니다.”

Q: 링의 반응은 어땠나? .
A: 그는 “아닙니다, 그렇지 않아요. 와서 저희와 만나보시죠”라고 말했다. 나는 마이크로소프트에서 몇몇 놀라운 여성을 만났다. 또한 세상을 바꾸기 위해 무언가를 시도하고 싶어 하는 놀랄 만큼 개방적인 사고관을 가진 사람들도 만났다.

Q: 데이터 과학이 컴퓨팅을 어떻게 변화시켰나?
A: 얻게 되는 데이터가 늘어나면서 컴퓨터 과학은 외부로 눈을 돌리기 시작했다. 나는 데이터 과학을 컴퓨팅, 통계, 윤리는 물론이고, 생물의학과 건강, 기후와 지속가능성, 인간 복지와 사회 정의 중 무엇이건 간에 영역이나 학문에 대한 관심이 모두 합쳐진 것이라고 생각한다. 그러한 결합이 컴퓨팅을 변화시키고 있다.

Q: 데이터 과학자들이 문제를 해결하는 방법은 다른가?
A: 이런 모든 데이터의 등장 덕에 우리는 어떤 일이 일어나는 이유를 설명하는 이론 없이도 데이터로부터 배울 수 있는 기회를 얻게 되었다. 특히 요즘 같은 머신러닝과 딥러닝 시대에 데이터는 기초적인 이론이 없이도 결론을 도출하고 예측을 할 수 있게 해준다.

Q: 데이터가 문제를 일으킬 수도 있나?
A: 혹자는 생체의학 데이터 같은 것을 가지고 있는 경우 그럴 수 있다고 생각한다. 생체의학 데이터는 기초적인 생물학적 메커니즘 없이도 무엇이 (의학적으로) 효과가 있고 없는지를 아주 정확하게 예측해준다.

Q: 장점은 무엇인가?
A: 데이터는 우리에게 경제학자가 ‘사후 가정 사고(counterfactual thinking, 어떤 일이 일어나기 전에 아무도 그 일이 일어날지 예측하지 못했지만 일이 일어난 후 당연한 결과라고 생각하는 경향)’라고 부르는 사고를 할 수 있게 해주는 경우가 많다. 그럴 때 우리는 실험을 하지 않고도 결론을 도출할 수 있게 해주는 데이터의 ‘임의 변동(random variation, 어떤 통계에서 변량의 변동 방법이 전혀 규칙성을 갖지 않는 상태)’을 실제로 목격하게 된다. 그것은 믿을 수 없을 만큼 유용하다.

내가 정말 다른 사람들마다 다른 교육을 시키길 원할까? 아니면 내가 어떤 시점에서 정말 좋은 인과적 추론을 해서 그것에 기초한 정책을 수립할 수 있게 해주는 ‘임의 변동’이 있었다는 것을 알기를 원하나? 이런 질문들에 대한 답을 찾을 수 있다.

Q: 특히 대기업의 데이터 사용 방식에 문제가 있다고 보는가?
A: 문제가 말도 못 할 정도로 많다. 기술기업만이 데이터를 사용하고 있는 것은 아니다. 보험회사도 사용하고 있다. 또 정부 플랫폼, 공중보건 플랫폼, 교육 플랫폼도 모두 사용하고 있다. 데이터 세트(데이터베이스) 자체와 알고리즘 모두에서 어떤 편향이 몰래 유입될 수 있는지 명확하게 이해하지 못하면 그것이 악화될 수 있다.

특히 데이터가 그다지 많지 않을 때 이러한 편향이 몰래 유입되곤 한다. 그리고 그것은 또한 다른 요인들과 상관관계를 가질 수 있다. 나는 개인적으로 약력과 이력서 내용을 자동으로 해석하는 연구를 해봤다. 지금 우리는 성별이나 인종을 채용 기준에 포함하는 게 허용되지 않는다. 하지만 데이터 안에는 성별이나 인종을 간접적으로 알 수 있게 해주는 것들이 많다. 만약 여러분이 특정한 학교를 다녔고, 특정한 동네에서 자랐고, 특정한 스포츠를 즐겼고, 특정한 활동을 했다면, 그런 데이터는 모두 성별이나 인종과 관계가 있기 때문이다.

Q: 알고리즘이 이러한 간접적 데이터를 이해하는가?  
A: 문제를 더 악화시킨다. 이 사실을 확실히 이해하고, 알고리즘을 설계할 때 그것이 그렇게 하지 못하게 해야 한다.

Q: 우리가 문제를 어떻게 해결할 수 있겠는가?
A: AI의 공정성, 책임감, 투명성, 윤리를 추구하는 게 중요하다. AI 알고리즘을 설계할 때 이 요소들을 이해하고 있어야 한다.  하지만 이 외에도 우리가 해야 할 일이 너무나 많다.

Q: 데이터 과학이 도움이 된다고 생각하나?
A: 정말로 그렇다고 본다. 인터넷 ‘남성계(manoper, 반페미니스트적 관점에서 남성과 관련된 내용을 게시하는 웹사이트)’란 곳에서 많은 증오가 등장하고 있다. 그것을 추적하기는 다소 어렵다. 하지만 AI의 하위 분야로, 자연어를 분석하고 인공어로 처리하는 기술인 ‘자연어 처리(natural language processing)’ 등과 같은 도구를 이용한다면 그런 증오의 출처를 파악할 수 있다. 또한 변호단체 등이 ‘남성계를’ 찾아내서 근절하는 데 도움을 주는 인터페이스를 구축하는 시도도 해볼 수 있다. 이것은 단순히 공정함을 넘어선 문제다. 이것은 남성계 같은 플랫폼이 편향과 증오를 심화시키는 데 악용되지 못하게 막고, “우리는 컴퓨팅과 데이터 과학의 힘을 이용해 증오를 찾아내어 누그러뜨릴 것이다”라고 말하는 문제이다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.