Where will AI go next?

AI 석학들이 본 AI 2023 트렌드

그리고 트위터의 대량 해고는 AI 업계 종사자들에게 무엇을 의미하나?

알고리즘에 오신 것을 환영합니다!

올해 우리는 ‘생성형 AI(generative AI)’ 분야에서 아찔할 정도로 많은 기술 혁신을 목격했습니다. 단어 몇 개만 갖고도 영상을 제작하는 AI에서 노래 한 소절을 바탕으로 오디오를 생성하는 AI에 이르기까지 다양한 혁신적 모델이 등장했죠.

최근 구글은 뉴욕시 맨해튼 허드슨 강변에 위치한 호화로운 새 사무실에서 AI 행사를 열었습니다. 이 행사에서 구글은 텍스트를 입력하면 영상을 생성하는 두 가지 ‘텍스트투비디오(text-to-video)’ AI 모델인 페나키(Phenaki)와 이매젠(Imagen)을 결합한 시스템 등 생성형 AI의 엄청난 발전을 예고했습니다. 이매젠이 고화질 영상을 만드는 데 초점을 맞추고 있다면, 페나키는 명령어를 통해 긴 분량의 영상을 만들어주는 게 특징입니다.

하지만 아직 일반 대중이 사용하려면 이러한 모델들은 더 많이 발전해야 합니다. 이러한 모델들 대부분이 인터넷에서 긁어모은 데이터를 바탕으로 학습을 진행합니다. 그런데 그러한 데이터의 속성상 폭력적이거나 성차별적이거나 인종차별적이거나 저작권을 침해하는 콘텐츠를 생성하는 등의 문제를 낳고 있죠. 한 구글 연구원은 생성형 AI 모델들이 아직 초기 수준에 있으며 실제 제품에 사용될 수 있으려면 많은 조정작업이 필요하다고 말했습니다. 생성형 AI 분야는 매우 인상적이지만 구글이 이 기술을 통해 어떻게 수익을 창출할 수 있을지도 불분명합니다.

이 행사에서 구글의 AI 연구 담당자 주빈 가라마니(Zoubin Ghahramani) 부사장은 400여 개 언어로 학습한 ‘범용 음성 모델(universal speech model)’을 개발하는 구글의 새 프로젝트가 곧 현실 세계에도 영향을 미치게 될 것이라고 밝혔습니다. 구글은 해당 모델에 대한 자세한 정보를 공개하지 않았지만 앞으로 몇 달 내에 관련 논문을 발표할 것이라고 합니다.

이 모델이 제대로 개발된다면 ‘대규모 자연어 모델(LLM)’의 역량은 놀라운 수준으로 확장될 것입니다. AI 스타트업 허깅페이스(Hugging Face)가 개발한 LLM인 블룸(BLOOM)은 46개 언어를 학습했고, 메타(Meta)는 실시간으로 수백 개 언어를 번역할 수 있는 AI 모델을 개발 중이죠. 구글은 더 많은 언어를 학습하고 있는 범용 음성 모델을 바탕으로 훨씬 더 많은 사람들에게 서비스를 제공할 수 있을 것입니다. 수백 개 언어를 하나의 AI 모델에 통합한다면 나은 번역 서비스와 유튜브 자막 서비스를 제공할 수 있고, 검색 엔진을 개선해서 다양한 언어들로 더 나은 검색 결과를 보여줄 수도 있죠.

저는 미국 동부 해안을 여행하는 동안 세계 최대 AI 연구소들의 최고 경영자들과 이야기를 나누었고 다가오는 내년에는 AI 분야에서 무엇이 화두가 될 것인가에 대한 견해를 들었습니다. 그들의 생각을 간단히 정리해 봤습니다.

더글러스 에크(Douglas Eck), 구글 리서치 수석 과학자 겸 구글브레인(Google Brain) 연구 책임자

에크는 컴퓨터 비전(computer vision)과 오디오를 사용해서 사물을 해석하는 능력처럼 복합적인 감각을 가진 ‘멀티모달(multimodal) AI 모델’을 다음 혁신으로 꼽았습니다. 그가 생각하기에 이제 중요한 일은 세상을 감지하는 다른 AI 모델에 언어 모델을 통합하는 방법을 알아내는 것입니다. 그렇게 되면 로봇이 시각과 언어 신호 및 음성 명령을 통해 주변을 이해하는 데도 도움을 줄 수 있기 때문이란 거죠.

얀 르쿤(Yann LeCun), 메타의 수석 AI 과학자

얀 르쿤은 “생성형 AI가 더 발전할 것”이라며 “우리가 그런 모델에서 끌어내고자 하는 것을 특정하는 더 나은 방법을 찾게 될 것”이라고 전망했습니다. 현재 생성형 AI 모델은 입력된 텍스트에 반응해서 결과물을 생성하지만, 그는 “지금으로서는 텍스트 생성 시스템이 내놓는 결과물을 통제하기가 매우 어렵다”고 덧붙였습니다. 그는 앞으로 AI 모델의 구조를 약간 수정하여 의도한 결과물을 내놓을 수 있는 방법을 찾기를 희망합니다.

라이아 해드셀(Raia Hadsell), 딥마인드(DeepMind) 연구 책임자

해드셀도 오디오, 언어, 비전을 결합하는 멀티모달 생성형 AI 시스템에 주목하고 있었습니다. 그는 AI 모델이 시행착오를 통해 스스로 학습할 수 있게 하는 강화학습(reinforcement learning)을 추가하면 주어진 환경 안에서 탐색하고 자율성을 가지며 상호작용하는 능력을 갖춘 AI 모델을 볼 수 있게 될지도 모른다고 전망했습니다.


더 깊이 딥러닝 속으로

트위터의 대량 해고가 AI 분야 종사자들에게 의미하는 바는 무엇일까?

지난 번에 MIT 테크놀로지 리뷰가 보도했듯이 일론 머스크(Elon Musk)가 트위터를 인수한 이후에 트위터 이용자 수는 100만 명 넘게 감소한 것으로 보입니다. 매일 310만여 개의 이용자들의 계정과 활동을 분석하여 트위터에서 벌어지는 허위 행동을 추적하는 분석업체 봇센티넬(Bot Sentinel)은 10월 27일부터 11월 1일 사이에 트위터에서 약 87만 7,000개의 계정이 비활성화되었고 추가로 49만 7,000개의 계정이 정지되었다고 추정합니다. 이러한 수치는 평소보다 두 배 이상 많은 수준입니다.

제가 보기에 이런 상황이 벌어진 원인은 분명합니다. 이용자들이 이제는 트위터가 시간을 보내기에 그다지 즐거운 장소가 아니라고 생각하게 된 거죠. 사람들이 이렇게 생각하게 된 데에는 머스크가 트위터의 AI 윤리팀을 포함해서 트위터를 안전한 장소로 만들기 위해 노력하는 팀들을 대량 해고한 것이 큰 역할을 했습니다. 머스크는 분명 이 결정을 후회하게 될 것입니다. 트위터는 이미 개인정보, 플랫폼 조작, 거버넌스, 테러와 폭력 극단주의, 피해로부터의 온라인 이용자 보호에 관한 역할을 포함해서 머신러닝과 관련된 13개 직책을 담당하는 엔지니어와 제품 관리자들을 다시 고용하고 있는 상황입니다. 하지만 우리는 특히 미국 중간선거가 다가오고 있던 시점에서 행해진 트위터의 대량 해고로 인해 어떤 피해가 있었는지 궁금할 뿐입니다.

우려되는 바는? 응용 AI 윤리 분야의 선구자 루맨 차우드허리(Rumman Chowdhury)가 이끄는 트위터의 AI 윤리팀은 트위터의 콘텐츠 조정 알고리즘의 가장 심각한 부작용을 억제하는 중요한 일을 수행하고 있었습니다. 지난번 MIT 테크놀로지 리뷰의 기사가 언급했듯이 AI 윤리학자들은 이미 업무에 대한 심각한 지식부족과 반발에 직면해 있죠. 이런 상황은 담당자들의 ‘번아웃’으로 이어질 수 있습니다. 트위터에 남겨진 사람들은 같은 문제를 이전보다 훨씬 적은 자원으로 해결해야 한다는 압박을 느끼게 될 것입니다. 별로 좋은 일이 아니죠. 머스크 같은 최고경영자가 안전하고 공정한 AI 시스템을 위해서 일하는 AI 윤리 분야를 첫 번째 해고 대상으로 삼았다는 점은 정말 우려됩니다.


기타 소식들

AI 이미지 생성기의 편향을 찾는 도구

허깅페이스의 연구원 사샤 루치오니(Sasha Luccioni)가 개발한 도구를 이용하면 누구라도 이미지를 생성하는 AI ‘스테이블디퓨전(Stable Diffusion)’이 특정 단어들의 조합을 통하여 어떻게 편향된 결과물을 생성하는가를 테스트할 수 있습니다. (바이스(Vice))

워싱턴DC에서 조용히 영향력을 키우고 있는 알고리즘

전자프라이버시정보센터(EPIC)이 펴낸 새 보고서에 따르면 미국 워싱턴 D.C.에 위치한 20개 공공기관들에서 알고리즘을 사용하고 있고 그 가운데 3분의 1 이상이 경찰의 치안 유지 및 사법 제도와 관련이 있는 것으로 나타났습니다. (와이어드(Wired))

메타, ‘단백질 접힘(protein folding)’ 분야에 도전

구글 딥마인드가 AI를 생물학에 적용하자 메타도 수억 건의 단백질 구조를 드러내는 기능을 갖춘 AI를 공개했습니다. 메타는 이 AI 모델이 6억 개의 단백질 구조를 가지고 있고 기존 모델보다도 규모가 3배 이상 더 크다고 밝혔습니다. (메타(Meta))

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.