How computing has transformed

컴퓨팅 기술은 어떻게 진화했는가

세계적인 데이터 과학자인 지넷 윙은 ‘신뢰할 수 있는 AI(trustworthy AI)’와 인과적 추론을 통해 현실 사회 문제를 해결할 수 있을 것으로 믿는다. 하지만 이는 쉽지 않을 수 있다.

우리 사회의 문제를 해결하기 위해 ‘데이터에 집중(fixate on data)’할 시간이라는 주장이 제기됐다.

2006년 카네기 멜론 대학 컴퓨터과학과의 학과장이었던 지넷 윙(Jeannette Wing)은 ‘컴퓨팅적 사고(Computational Thinking)’라는 영향력 있는 논문을 출판했다. 이 논문에서 그녀는 컴퓨터 과학의 개념적 도구를 통해 인간 사회의 많은 문제를 해결할 수 있다고 말한다.

윙이 컴퓨터 과학을 공부하려고 작정한 적은 없다. 1970년대 중반, 그녀는 전자공학 교수였던 아버지의 영향을 받아 같은 분야를 전공하기 위해 MIT에 입학했다. 윙이 컴퓨터 과학에 흥미를 느꼈을 때, 그녀는 이 분야가 앞으로도 발전할 가능성이 있을지에 대해 아버지와 상의했다. 무엇보다 그 당시 컴퓨터 공학에는 제대로 된 교과서조차 없었다. 그녀의 아버지는 컴퓨터 과학의 발전 가능성에 대해 그녀에게 설명했고, 그녀는 전공을 변경한 후 이 분야에 전념했다.

그녀는 마이크로소프트 리서치(Microsoft Research)의 전 상무로도 일했던 그녀는 현재 컬럼비아 대학(Columbia University)의 부총장으로서 여러 방면에서 데이터 과학을 육성하는 데 앞장서고 있다.

본 기사에서 아닐 아난타스와미(Anil Ananthaswamy)는 ‘신뢰할 수 있는 AI(trustworthy AI)’ 활성화를 위한 윙의 야심 찬 의제에 관해 묻는다. ‘신뢰할 수 있는 AI’는 AI 시스템을 공정하고 덜 편향되도록 만들기 위해 그녀가 발굴한 10가지 연구 과제 중 하나이다.

Q. 컴퓨팅 방식에 변화가 일어나고 있다고 생각하는가?

A: 물론이다. 무어의 법칙은 우리에게 큰 도움이 되었다. 다만, 우리는 무어의 법칙이 곧 한계에 다다를 것을 알았고, 여기서 병렬 컴퓨팅의 중요성이 부각되었다. 그러나 대대적인 변화는 클라우드 컴퓨팅에서 일어났다. 분산파일시스템(distributed file systems, DFS)은 파일이 당신의 컴퓨터가 아닌 서버에 저장되는, 일종의 초기 클라우드 컴퓨팅이었다. 클라우드 컴퓨팅은 이를 더욱 확장하여 데이터뿐만 아니라 연산조차도 서버에서 이루어지도록 한다.

다음 큰 변화는 데이터에 관한 것이다. 오랫동안 우리는 처리 속도에 집착해 모든 작업을 더 빠르게 수행할 수 있도록 만들었다. 프로세서, CPU, GPU 및 더 많은 병렬 서버가 이를 위한 것이다. 우리는 데이터 부분을 무시해왔다. 이제는 데이터에 집중할 시기가 왔다.

Q. 데이터 과학을 어떻게 정의하겠는가? 데이터 사용에 있어 어려움은 무엇인가?

A: 나는 아주 간결한 정의를 사용하고 있다. 데이터 과학은 데이터로부터 가치를 추출하는 학문이다.  주어진 초기 데이터(raw data)에서 의미 있는 정보를 추출하는 것은 어려운 과정이다. 정보 처리는 데이터의 수집으로부터 시작하여 처리, 저장, 관리, 분석, 시각화 및 결과를 해석하는 것을 포함한다. 나는 그것을 데이터의 생애주기라고 부른다. 주기의 모든 단계에 많은 작업이 필요하다.

Q. 빅 데이터를 사용할 때 개인 정보, 보안, 공정성 및 편견에 대한 우려가 종종 발생한다. 특히 AI에서 이러한 문제를 어떻게 해결할 것인가?

A: 내가 추진하고 있는 새로운 연구 의제가 있다. 일명 ‘신뢰할 수 있는 AI’이다. 이 개념은 수십 년 동안 우리가 ‘신뢰할 수 있는 컴퓨팅’ 분야에서 이룩한 발전에서 영감받았다. 신뢰성이란 일반적으로 보안, 확실성(reliability), 가용성, 개인정보보호 및 유용성을 의미한다. 지난 20년 동안 우리는 이 분야에서 많은 발전을 이루었다. 우리는 코드의 정확성을 점검할 수 있는 규격화된 방법을 가지고 있다. 특정 시스템의 보안을 강화하는 보안 프로토콜도 있으며, 개인정보보호에 대한 규범화된 개념 또한 갖추고 있다.

신뢰할 수 있는 AI에 대한 논의를 위해서는 두 가지 문제를 더 해결해야 한다. 이는 견고성(robustness)과 공정성이다. 견고성이란 입력값을 교란해도 출력값이 크게 동요하지 않는다는 의미이다. 그리고 우리는 해석가능성에 대해서도 이야기한다. 이러한 것들은 우리가 컴퓨팅에 대해 이야기할 때는 언급하지 않았던 것들이다.

또한, AI 시스템은 본질적으로 확률적이다. 과거의 컴퓨팅 시스템은 기본적으로 온/오프, 참 또는 거짓, 예 또는 아니오, 0 또는 1과 같이 결정론적인 기계였다. 하지만 AI 시스템의 출력값은 기본적으로 확률이다. 만일 AI가 엑스레이 사진을 보고 암에 걸렸는지를 평가한다고 하면, 사진 속 작은 흰 음영이 악성일 확률은 0.75와 같은 숫자로 표시될 것이다.

그러므로 이제 우리는 확률의 세계에서 살아야 한다. AI는 이제 수학적인 관점에서 확률론적 논리를 사용하며, 많은 통계학, 추계학적(stochastic) 추론 등을 도입하기 시작했다. 컴퓨터 과학자로서, 우리는 그런 식으로 사고하도록 훈련되지 않았다. 그래서 AI 시스템은 이러한 시스템에 대한 우리의 형식 추론(formal reasoning)을 복잡하게 만들었다.

Q. 신뢰할 수 있는 AI는 데이터 과학자가 직면한 10가지 연구 과제 중 하나다. 인과성은 별개의 큰 이슈인 듯하다.

A: 인과성은 인공지능과 기계학습 분야에서 차기 미개척 분야라고 생각한다. 현재 기계학습 알고리즘과 모델은 패턴, 상관관계 및 연관성을 잘 찾아낸다. 하지만 그들은 ‘이것이 원인이었는가?’ 혹은 ‘만약 내가 이렇게 한다면 어떤 일이 일어날까?’ 같은 질문에 답할 수 없다. 컴퓨터 과학 분야에서 인과 추론과 관련된 새로운 연구가 활발하게 시작된 이유는 이 때문이다. 통계학은 수십 년 동안 인과성을 연구해왔다. 그들은 종종 컴퓨터 과학계가 “오, 이것은 완전히 새로운 아이디어야.”라고 여기는 것에 대해 다소 발끈할 때가 있다. 물론 나는 인과성에 대한 통계학계의 기여를 인정한다. 빅 데이터와 인과적 추론을 합하면 이 분야를 발전시킬 수 있다.

Q. 데이터 과학이 무엇을 성취할 것으로 기대하는가?

A: 모든 이가 데이터 과학에 열광하고 있다. 왜냐하면 지금 이 순간 사람들은 그들이 만들고 수집하는 디지털 정보에 데이터 과학적인 방법론을 적용함으로써 그들의 분야가 변화하는 모습을 보고 있기 때문이다. 매우 흥미로운 시간이다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.