Eric Schmidt: This is how AI will transform the way science gets done

[에릭 슈밋 특별기고] AI 기술로 과학을 혁신할 방법

구글의 전 최고경영자 에릭 슈밋(Eric Schmidt)은 AI 덕분에 과학이 훨씬 더 흥미로워질 것이며, 이것이 우리 모두에게 영향을 줄 것이라고 주장한다. MIT 테크놀로지 리뷰에 기고한 슈밋의 글을 단독 공개한다.

전례 없는 폭염과 산불, 홍수가 전 세계를 강타하는 극단적인 날씨의 여름이 또다시 찾아왔다. 이러한 극단적인 날씨를 정확하게 예측하기 위해 반도체 대기업 엔비디아(NVIDIA)는 인공지능(AI)을 이용해 전 지구에 대한 ‘디지털 트윈’을 구축하고 있다.

어스-2(Earth-2)’라는 이름의 이 디지털 트윈은 ‘포캐스트넷(FourCastNet)’의 예측을 이용할 예정이다. 수십 테라바이트에 달하는 지구 시스템 데이터를 사용하는 AI 모델 포캐스트넷은 현재 기상 예측 방식보다 수만 배 빠르고 정확하게 향후 2주간의 날씨를 예측할 수 있다.

일반적인 기상 예측 시스템은 다음 한 주에 대해서 약 50개의 예측을 생성할 수 있다. 그러나 포캐스트넷은 수천 가지 가능성을 예측하여 드물지만 치명적인 재해 위험을 정확히 포착함으로써 기후 취약성이 높은 사람들이 위험에 대비하고 대피할 귀중한 시간을 제공할 수 있다.

기후모델링 분야에서 기대해 온 혁명은 이제 막 시작되었을 뿐이다. AI의 등장으로 과학은 훨씬 더 흥미진진해지겠지만, 어떤 면에서는 변화를 알아차리기 어려울 수 있다. 그러나 이러한 변화의 반향은 실험실을 넘어 멀리에서도 느껴질 것이며 우리 모두에게 영향을 미칠 것이다.

우리가 합리적 규제와 적절한 지원을 바탕으로 AI를 혁신적으로 사용하여 과학의 가장 시급한 문제를 해결해 나간다면, AI는 과학적 탐구 과정을 다시 쓸 수 있을 것이다. 그렇게 되면 우리는 AI 도구를 통해 머리 쓸 필요 없고 시간만 많이 소모되는 노동에서 벗어나고, 기존에는 수십 년이 필요했을 법한 혁신적인 돌파구를 찾아내는 창의적 발명과 발견이 가능한 미래를 구축할 수 있을 것이다.

최근 몇 달 동안 AI는 대형 언어모델(large language model, LMM)과 거의 동의어가 되었지만, 과학계에는 대형 언어모델보다 세상에 훨씬 더 큰 영향을 미칠 수 있는 다양한 모델 아키텍처가 있다. 지난 10년간 과학 분야에서 일어난 대부분의 발전은 특정한 문제에 초점을 맞춘 더 작고 ‘고전적인’ 모델을 통해 이루어졌다. 이러한 모델들은 이미 상당한 발전을 가져왔다. 더 최근에는 여러 영역의 지식과 생성형 AI(generative AI)를 통합하기 시작한 더 큰 규모의 딥러닝(deep-learning) 모델이 AI 모델의 가능성을 확장하고 있다.

예를 들어 맥매스터 대학교(McMaster University)와 매사추세츠 공과대학교(Massachusetts Institute of Technology, MIT)의 과학자들은 AI 모델을 사용해서 세계보건기구(WHO)가 입원 환자들에게 가장 치명적인 항생제 내성균 중 하나로 분류한 병원균에 맞설 항생제를 파악했다. 구글의 딥마인드(DeepMind) 모델은 핵융합 반응에서 플라스마를 제어함으로써 우리를 청정에너지 혁명에 한층 더 가까워지게 했다. 의료 분야에서는 미국 식품의약국(FDA)이 AI를 사용하는 523개의 기기를 이미 허가했으며, 그중 75%는 영상의학과에서 사용된다.

과학의 재구성

우리가 초등학교에서 배운 과학적 탐구 과정의 본질, 즉 배경을 연구하고, 가설을 설정하고, 실험을 통해 가설을 검증하고, 수집한 데이터를 분석하여 결론을 도출하는 과정에는 변화가 없을 것이다. 그러나 AI는 각 단계의 미래 모습을 완전히 바꿔놓을 잠재력을 가지고 있다.

AI는 이미 일부 과학자들이 문헌 검토를 수행하는 방식을 바꾸고 있다. 페이퍼QA(PaperQA)와 일리싯(Elicit) 같은 도구들은 대형 언어모델을 활용하여 아티클 데이터베이스를 스캔하고, 인용문을 포함하여 기존 문헌에 대한 간결하고 정확한 요약을 생성한다.

문헌 검토를 완료하면 과학자들은 검증할 가설을 설정한다. 대형 언어모델은 본질적으로 문장의 다음에 이어질 단어를 예측하여 전체 문장과 문단을 구성하는 방식으로 작동한다. 따라서 대형 언어모델은 과학의 계층 구조에 내재된 대규모 문제 해결에 적합하며, 이를 이용하면 물리학이나 생물학 분야에서 다음에 일어날 큰 발견을 예측할 수 있을 것이다.

AI는 또한 가설에 대한 검색 범위를 넓게 확장한 다음, 빠른 속도로 범위를 좁힐 수 있다. 결과적으로 AI 도구는 더 가능성 있는 신약 후보 물질을 찾아내는 모델처럼 더 강력한 가설을 수립하는 데 도움을 줄 수 있다. 이미 각종 시뮬레이션은 불과 몇 년 전보다 훨씬 빠른 속도로 훨씬 더 많은 것들을 처리할 수 있게 되었으며, 이를 통해 과학자들은 실제 실험을 수행하기 전에 시뮬레이션에서 더 많은 설계 옵션을 시도할 수 있다.

예를 들어 캘리포니아 공과대학교(California Institute of Technology, Caltech)의 과학자들은 AI 유체 시뮬레이션 모델을 사용해서, 세균이 역류하여 감염을 유발하지 않도록 방지하는 더 나은 카테터를 자동으로 설계했다. 이러한 능력은 과학적 발견이 일어나는 점진적 과정을 근본적으로 변화시킬 것이다. 즉 AI를 이용하면, 과거에 전구 설계 과정에서 몇 년에 걸쳐 필라멘트를 혁신했던 것처럼 더 나은 설계를 위해 점진적인 개선 과정을 거치는 대신에, 연구자들이 처음부터 최적의 해법을 파악해 설계할 수 있게 될 것이다.

실험 단계로 넘어가면, AI는 실험을 더 빠르고, 더 저렴하고, 더 큰 규모로 수행할 수 있게 할 것이다. 예를 들어 우리는 수백 개의 마이크로피펫(micropipette: 극소량의 액체를 정확하게 옮기는 데 사용하는 기구)이 밤낮으로 작동하며 인간이 따라갈 수 없는 속도로 샘플을 만드는 AI 기계를 만들 수 있다. AI 도구를 이용하면 과학자들이 실험 횟수에 제한을 둘 필요 없이 수천 번의 실험을 수행할 수 있다.

다음번의 연구 보조금, 연구 결과 발표, 또는 임용 과정에 대해 우려하는 과학자들은 이제 성공 가능성이 높은 안전한 실험에만 얽매일 필요 없이, 더 대담하고 학제적인 가설을 자유롭게 추구할 수 있을 것이다. 예를 들어 새로운 분자를 평가할 때 연구자들은 우리가 이미 알고 있는 것과 구조가 비슷한 후보를 고수하는 경향이 있지만, AI 모델은 그런 편향이나 제약을 가질 필요가 없다.

결국 과학의 많은 부분이 AI와 결합된 자동화된 로봇 플랫폼으로 이루어진 ‘자율구동 실험실’에서 수행될 것이다. 여기에서 우리는 디지털 영역의 AI 기술을 물리적 세계로 가져올 수 있다. 이러한 자율구동 실험실은 이미 에메랄드 클라우드 랩(Emerald Cloud Lab), 아티피셜(Artificial) 등의 기업과 심지어 아르곤 국립연구소(Argonne National Laboratory)에서도 등장하고 있다.

마지막으로, 분석과 결론 도출 단계에서 자율구동 실험실은 자동화에서 그치지 않고, 실험 결과를 통해 정보를 얻은 대형 언어모델을 사용하여 결과를 해석하고 다음에 수행할 실험을 추천받을 것이다. 그런 다음, 연구 과정의 파트너로서 AI 실험보조원이 이전 실험에서 사용한 물품을 대체할 물품들을 새로 주문하고, 추천받은 다음 실험을 설정해서 밤새워 수행하여 오전에 결과를 전달할 준비를 마칠 수 있을 것이다. 이 모든 과정이 이루어지는 동안 실험자는 집에서 편히 자면서 쉴 수 있다.

가능성과 한계

젊은 연구자들은 AI와 관련한 이러한 전망으로 불안해하고 있을지도 모른다. 그러나 다행히 이러한 혁명을 통해 새롭게 탄생하는 일자리들은 현재 대부분의 실험실 일자리보다 더 머리를 써야 하는 창의적인 직업일 가능성이 크다.

AI 도구는 새로운 과학자들의 진입 장벽을 낮추고, 기존에는 과학계에서 배제됐던 사람들에게도 기회를 열어줄 수 있다. 대형 언어모델이 코드 작성에 도움을 줄 수 있게 되면서, 이공계 학생들이 더는 모호한 코딩 언어에 숙달할 필요가 없어질 것이며, 이를 통해 새로운 인재에게 상아탑의 문이 개방되고, 과학자들은 자신의 분야뿐만 아니라 다양한 분야를 더 쉽게 활용할 수 있게 될 것이다. 특정한 목적을 위해 학습한 대형 언어모델은 곧 연구 지원금 제안서 같은 문서 작업의 초안을 제공하는 단계를 넘어서 인간 검토자와 함께 새 논문의 ‘동료’ 검토를 제공할 정도로 발전할 수도 있다.

AI 도구는 놀라운 잠재력을 가지고 있다. 그러나 우리는 인간의 손길이 여전히 중요한 분야를 인식해야 하며, 걷기도 전에 뛰려고 하지 않도록 주의해야 한다. 예를 들어 자율구동 실험실을 통해 AI와 로봇공학을 성공적으로 융합하는 일은 쉽지 않을 것이다. 과학자들이 실험실에서 습득하는 암묵적인 지식은 AI 기반 로봇에 전달되기 어렵다. 마찬가지로 우리는 수많은 문서 작업, 연구, 분석 등을 대형 언어모델에 맡기기 전에, 현재 대형 언어모델들의 한계와 환각(hallucination: 언어모델이 잘 모르는 문제에 대해서도 그럴듯한 답을 내놓는 현상)을 인지하고 있어야 한다.

오픈AI와 딥마인드 같은 회사들은 여전히 새로운 돌파구, 모델, 연구 논문 분야의 선두에 있지만, 현재의 지배력이 영원히 지속되지는 않을 것이다. 딥마인드는 지금까지 목표와 지표가 명확한 문제에 초점을 맞추는 방식으로 다른 곳보다 앞서나갈 수 있었다. 딥마인드가 이룬 가장 유명한 성공은 2년마다 열리는 단백질 구조 예측 학술대회(Critical Assessment of Structure Prediction)에서 거둔 것이었다.

아미노산 순서를 통해 단백질의 정확한 모양을 예측하는 이 대회에서 2006년부터 2016년까지 가장 어려운 부문의 평균 점수는 100점 만점에 약 30~40점 사이였다. 그러다가 2018년에 갑자기 딥마인드의 알파폴드(AlphaFold) 모델이 무려 58점을 기록했다. 이 모델을 개선한 알파폴드2는 2년 뒤 87점을 기록하며 인간 경쟁자들을 크게 압도했다.

오픈소스 리소스 덕분에 우리는 산업이 특정 기준점에 도달하고 나면 학계가 나서서 모델을 개선하는 패턴을 목격하기 시작했다. 딥마인드가 알파폴드를 출시한 이후에 워싱턴 대학교(University of Washington)의 데이비드 베이커(David Baker) 교수와 백민경 연구원이 로제타폴드(RoseTTAFold)를 출시했다. 로제타폴드는 딥마인드의 틀을 이용해서 알파폴드가 처리할 수 있었던 단일 단백질 구조 대신 단백질 복합체의 구조를 예측한다. 더 중요한 것은, 학계는 시장의 경쟁 압력에서 다소 벗어나 있기 때문에 딥마인드가 집중했던 명확한 문제나 측정 가능한 성공을 뛰어넘는 모험을 할 수 있다는 점이다.

새로운 지점에 도달하는 것 외에도 AI는 과학의 재현성 위기(replicability crisis) 해결을 통해 우리가 이미 알고 있는 내용을 검증하는 데 도움을 줄 수 있다. 과학자 중 약 70%가 다른 과학자의 실험을 재현할 수 없었다고 보고하는데, 이는 꽤 실망스러운 수치이다. AI가 실험 수행 비용과 노력을 줄여주면서, 어떤 경우에는 결과를 재현하거나, 결과 재현이 불가능하다고 결론 내리기가 더 쉬워질 것이며, 그러면 과학계의 신뢰 증진에 도움이 될 것이다.

재현성과 신뢰 문제의 핵심은 투명성이다. 이상적인 세계에서는 과학의 모든 것이 무료 아티클부터 오픈소스 데이터, 코드, 모델을 통해 공개될 것이다. 그러나 안타깝게도, 그런 모델이 초래할 수 있는 위험으로 인해 모든 모델을 오픈 소스로 공개하는 것이 항상 현실적이지는 않다. 도리어 완전한 투명성으로 인한 위험이 신뢰와 형평성의 이익을 뛰어넘는 경우가 많다. 그렇다고 해도, 우리는 특히 용도가 더 제한적인 과거의 AI 모델을 비롯해 AI 모델에 대하여 할 수 있는 한 투명성을 유지해야 한다.

규제의 중요성

지금까지 언급한 모든 부분에서 AI의 고유한 한계와 위험성을 기억해야 한다. AI는 인간이 더 적은 시간, 적은 교육, 적은 장비로 더 많은 것을 성취할 수 있게 해주기 때문에 강력한 도구라고 할 수 있다. 그러나 그러한 능력으로 인해 AI가 엉뚱한 사람들의 손에 들어가면 위험한 무기가 될 수 있다. 로체스터 대학교(University of Rochester)의 앤드루 화이트(Andrew White) 교수는 GPT-4 공개 전에 GPT-4의 위험을 노출하기 위한 ‘레드팀(red team)’에 참여하기로 오픈AI와 계약을 맺었다. GPT-4를 사용하며 GPT-4에 화학 도구에 대한 접근 권한을 부여한 화이트는 GPT-4가 위험한 화합물을 제안할 수 있을 뿐만 아니라 심지어 화학약품 공급업체에 해당 화합물을 주문할 수도 있음을 발견했다. 그 과정을 테스트하기 위해 화이트는 그다음 주에 GPT-4를 이용해서 (안전한) 시험용 화합물을 자기 집으로 발송했다. 오픈AI는 GPT-4가 출시되기 전에 화이트의 연구 결과를 토대로 GPT-4를 조정했다고 말한다.

전적으로 선한 의도를 가진 인간들도 AI가 나쁜 결과를 생성하도록 유도할 수 있다. 우리는 터미네이터를 만들까 봐 걱정하는 것이 아니라, 컴퓨터 과학자 스튜어트 러셀(Stuart Russell)이 말했듯이 자신이 만진 모든 것이 금으로 변하기를 바라다가 실수로 딸을 껴안아서 죽여버린 미다스 왕이 되는 것을 더 걱정해야 한다.

우리는 우리가 예상하지 못한 방식으로 AI가 목표에 반응할 때도, AI가 목표를 바꾸도록 유도하는 방법을 알지 못한다. 이와 관련해서 한 가지 자주 인용되는 가설은 우리가 AI에 가능한 한 많은 클립을 생산하라고 요청하는 상황이다. 그러면 AI 모델은 목표 달성을 위해 전력망을 강탈하고, 클립이 계속해서 쌓이는 동안 이를 막으려는 모든 사람을 죽일 것이다. 세상은 엄청난 혼란에 빠지지만, AI는 해야 할 일을 제대로 해냈으므로 스스로를 칭찬할 것이다. (이 유명한 사고실험을 기억하기 위해 오픈AI 직원들은 자사의 클립을 들고 다닌다.)

오픈AI는 인상적인 안전장치들을 구현하는 데 성공했지만, 이러한 안전장치들은 GPT-4가 오픈AI 서버에 저장된 상황에서만 제 역할을 할 수 있을 것이다. 그러나 누군가가 AI 모델을 복제해서 자체 서버에 저장하는 날이 곧 찾아올지도 모른다. GPT-4처럼 선구적인 모델들은 개발자들이 조심스럽게 추가해 놓은 AI 안전장치를 도둑들이 제거하지 못하도록 보호해야 한다.

AI의 의도적인 악용과 의도적이지 않은 악용 문제를 모두 해결하려면 거대 기술 기업과 오픈소스 모델 모두에 대해서 정보에 입각한 현명한 규제가 필요하다. 그러나 이러한 규제는 우리가 AI를 과학에 도움이 되는 방식으로 사용하는 것을 가로막아서는 안 된다. 기술 기업들은 AI 안전에 관해서 큰 진전을 이루어왔지만, 안타깝게도 현재 정부 규제 기관들은 적절한 법을 제정할 준비가 제대로 되어 있지 않으며, 더 많은 조치를 통해 AI의 최신 발전에 대해 스스로를 교육해야 하는 상황이다.

규제를 넘어서 정부는 자선 사업과 함께 사회적 이익은 크지만, 재정적 수익이나 학술적 인센티브는 부족한 과학 프로젝트를 지원할 수 있다. 기후변화, 생물안전(biosecurity), 팬데믹 대비 등 몇몇 분야는 특히 도움이 시급하다. AI 시뮬레이션과 자율구동 실험실이 제공하는 속도와 규모가 가장 필요한 분야가 바로 이러한 분야이다.

정부는 안전에 대한 우려가 없는 한, 알파폴드가 사용했던 것과 같은 대규모의 고품질 데이터세트 개발에도 도움을 줄 수 있다. 오픈 데이터세트는 공공재이다. 이러한 데이터세트는 많은 연구자에게 도움이 될 수 있지만, 연구자들 스스로 그런 데이터세트를 만들 동기는 거의 없다. 정부와 자선 단체는 대학 및 기업과 협력해서 강력한 데이터베이스 접근을 통해 이익을 얻을 수 있는 과학의 중대한 과제들이 무엇인지 정확히 파악할 수 있을 것이다.

예를 들어 화학은 해당 분야를 통합하는 하나의 언어를 가지고 있기 때문에 AI 모델을 이용한 쉬운 분석 대상으로 적합할 수 있다. 그러나 아직 그 누구도 수십 개의 데이터베이스에 저장된 분자 특성에 대한 데이터를 적절하게 통합한 적은 없었다. 만약 이러한 데이터를 포괄하는 단일 소스가 있다면 AI 모델을 통해 화학 분야에 대한 다양한 통찰을 도출할 수 있었을 것이다. 한편, 우리에게 여전히 수수께끼인 무질서한 단백질 같은 하위 분야를 포함하는 생물학 분야에는 물리학이나 화학의 기저를 이루는 데이터처럼 널리 알려진, 계산 가능한 데이터가 부족하다. 따라서 종합적인 데이터베이스를 위한 데이터를 이해하고 심지어 그런 데이터를 기록하기 위해서는 더 많은 협력과 노력이 필요할 것이다.

과학 분야에서 광범위하게 AI를 활용하려면, 올바른 데이터베이스 구축부터 적절한 규제 시행, AI 알고리즘 편향 완화, 컴퓨팅 리소스에 대한 국경을 뛰어넘는 동등한 접근권 보장에 이르기까지 우리가 제대로 해야 할 많은 일들이 있다.

그렇다고 해도 지금은 매우 낙관적인 순간이다. 과학적 탐구 과정이나 빅데이터의 출현 등 과학계에서 이전에 있었던 패러다임 변화는 과학 내부에 더 집중하여 과학을 더 정밀하고, 정확하며, 체계적인 학문으로 만들었다. 그러나 AI는 포괄적이므로 이를 통해 우리는 정보를 새로운 방식으로 결합하여 과학의 창의성과 진전을 새로운 수준으로 끌어올릴 수 있을 것이다.

*이 글을 쓴 에릭 슈밋(Eric Schmidt)은 2001년부터 2011년까지 구글의 최고경영자였다. 그는 현재 세상을 더 나은 곳으로 만들고, 과학과 기술을 적용하고, 다양한 분야의 사람을 하나로 모으는 뛰어난 사람들에게 초기에 투자하기 위한 자선 단체 슈밋 퓨처스(Schmidt Futures)의 공동설립자이다.


<MIT 테크놀로지 리뷰> 매거진 Vol. 10

새로운 기후 시대의 생존 방안

본 기사는 <MIT 테크놀로지 매거진> 2023년 9·10월호에서도 만나보실 수 있습니다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.