AI hype is built on its high test scores. Those tests are flawed.

결함 있는 테스트로 부풀려진 대형언어모델 (LLM)

다양한 분야에서 커다란 반향을 일으키고 있는 대형언어모델(LLM)에 대해 기대와 두려움이 공존하고 있다. 이제 이 기술의 진정한 강점과 한계가 무엇인지에 대해 명확한 합의를 도출할 때다.

2022년 초 GPT-3의 다양한 기능을 테스트하던 심리학자 테일러 웨브(Taylor Webb)는 오픈AI가 만든 이 대형언어모델(LLM)이 보여주는 무궁무진한 가능성에 크게 놀랐다. GPT-3는 텍스트의 다음 단어를 예측하도록 훈련된, 즉 자동 완성 기능(jumped-up autocomplete)을 갖춘 신경망이었으나 웨브가 준비한 IQ 검사에서나 나올 법한 추상적인 문제들까지도 막힘 없이 풀어냈다. 웨브는 “이러한 문제를 풀어내는 GPT-3의 능력에 큰 충격을 받았다”며 “전혀 예상하지 못했던 의외의 결과였다”고 말했다. 

웨브는 현재 미국 캘리포니아 대학교 로스앤젤레스 캠퍼스에서 인간과 컴퓨터가 추상적인 문제를 해결하는 방식의 차이를 연구한다. 그는 이미 특정 추론 기능이 탑재된 신경망을 여러 번 개발해 본 경험이 있다. 하지만 GPT-3는 추론 기능을 스스로 습득한 것처럼 보였다.

지난 7월 웨브와 동료들은 <네이처(Nature)>에 일명 ‘유추적 추론’이라고 불리는 유사성을 이용해 문제를 해결할 수 있는 능력을 평가하기 위해 개발된 다양한 시험을 GPT-3가 통과할 수 있다는 내용의 논문을 기고했다. GPT-3는 일부 시험에서 대조 집단인 학부생들보다 더 고득점을 받았다는 것이다. 웨브는 “유추는 인간의 추론 능력 중 가장 중요한 요소”라며 “우리는 이 능력을 모든 종류의 기계 지능이 증명해야 할 주요 역량 중 하나라고 생각한다”고 밝혔다.

웨브의 연구에서 강조하는 부분은 LLM이 선보인 여러 가지 놀라운 기능 중 가장 최근에 개발된 기능이다. 예를 들어, 지난 3월 오픈AI는 GPT-3의 후속 제품인 GPT-4를 선보이는 과정에서 이 새로운 LLM이 수십 개의 고등학교 시험과 변호사 시험을 포함해 다양한 전문 평가 및 학력 검사에서 우수한 성적을 거뒀다고 주장하며 그 목록을 공개했다. 이후 오픈AI는 마이크로소프트와 협력해 GPT-4가 미국 의료 면허 시험의 일부를 통과할 수 있다는 걸 증명해 보였다.

또한 많은 연구자들은 LLM이 연쇄 사고(문제를 단계적으로 해결하는 능력), 마음 이론(다른 사람들의 생각을 추측하는 능력) 등 인간의 특정한 인지 능력을 파악하기 위해 개발된 시험을 통과할 수 있다는 사실을 입증했다고 주장한다.

이러한 결과들은 인공지능(AI)이 탑재된 기계가 곧 사무직 일자리에 투입되어 교사, 의사, 언론인, 변호사를 대체할 것이라고 보는 기계에 대한 우려 가득한 시각에 힘을 실어주고 있다. 딥러닝 기술의 세계적 권위자인 제프리 힌튼(Geoffrey Hinton) 교수는 자신이 개발에 참여한 기술에 두려움을 느끼게 된 이유 중 하나로 여러 가지 생각을 통합하는 GPT-4의 특별한 능력을 꼽기도 했다.

그런데 문제는, 이와 같은 LLM의 뛰어난 능력과 관련해 전문가들의 반응이 서로 극명하게 엇갈린다는 것이다. 즉, AI와 인간의 지능 사이의 공통점을 발견하고 크게 감탄하는 사람도 있지만, 반대로 이러한 반응에 전혀 공감하지 못하는 사람도 있다.

이스라엘 라마트간에 있는 바일란 대학교(Bar-Ilan University)의 컴퓨터 과학자 나탈리 샤피라(Natalie Shapira)는 “현재의 LLM 평가 기술에는 몇 가지 중요한 문제가 있는데 그것은 이 평가 기술이 LLM의 능력을 실제보다 크게 부풀린다는 것”이라고 주장했다.

그처럼 LLM의 평가 방식을 재검토하기를 바라고, 더 엄격하고 철저한 평가를 요구하는 컴퓨터 과학자, 인지 과학자, 신경과학자, 언어학자 등이 점점 더 늘어나고 있다. 인간에게 적합한 시험으로 기계의 능력을 평가하는 방식에는 분명 문제가 있으며 이를 중단해야 한다고 보는 시각도 있다.

미국 뉴멕시코주에 소재한 산타페 연구소에서 AI를 연구하는 멜라니 미첼(Melanie Mitchell)은 “사람들은 AI가 개발된 후 계속해서 기계를 대상으로 IQ 검사 같은 인간을 대상으로 하는 지능 시험을 실시해 왔다”면서 “가장 근본적인 고민은 이러한 시험 결과를 어떻게 해석할 것인가라는 문제다. 기계가 받은 시험 결과는 인간이 얻은 결과와는 다른 의미를 갖기 때문”이라고 주장했다.

그녀는 “AI를 의인화하려는 시도가 다양하게 이루어지고 있다”면서 “이는 AI 시스템에 대한 우리의 생각과 시험 방법에도 어느 정도 영향을 미친다”고 꼬집었다.

AI 기술에 대한 기대와 두려움이 극대화된 현 상황에서 LLM이 할 수 있는 작업과 그렇지 않은 작업을 명확히 구분하는 것은 매우 중요하다.

다양한 해석 가능성

LLM의 시험 방식과 관련된 문제는 대부분 시험 결과를 어떻게 해석할 것인지에 대한 문제로 귀결된다.

고등학교 시험이나 IQ 검사처럼 인간을 위해 설계된 평가는 많은 경우 그 결과를 두고 논쟁이 발생할 일이 없다. 누군가 시험에서 좋은 결과를 받으면 사람들은 그가 시험의 측정 대상인 지식이나 이해력 내지 인지 능력을 보유하고 있다고 확신한다(실제로는 이러한 추정은 부분적으로만 옳다. 학업 시험이 항상 학생의 실제 능력을 반영하는 것은 아니며 IQ 검사는 전반적인 지능이 아닌 특정 기술만을 측정한다. 또한 이 두 가지 평가에 익숙한 사람일수록 더 높은 점수를 받는 경향이 있다).

그러나 LLM이 인간용 시험에서 좋은 점수를 받은 경우에는 시험에서 측정 대상이 무엇인지가 불분명하다. 기계가 실제로 이해력이 뛰어나기 때문에 좋은 점수를 받은 건가, 아니면 통계 데이터를 기계적으로 처리하거나 암기 및 반복하는 기능이 우수하다는 걸 보여주는 증거인가?

구글 딥마인드(Google DeepMind)의 수석 연구 과학자인 로라 바이딩거(Laura Weidinger)는 “인간의 마음을 시험하는 방법을 개발하기 위한 시도는 오래 전부터 이어져왔다”면서 “인간의 글과 비슷한 텍스트를 만들어내는 LLM을 사용하면 인간의 심리학 시험으로 이러한 언어모델을 평가할 수 있을 거라고 생각하기 쉽지만 실제로는 그렇지 않고, 인간 심리학 시험은 LLM에는 적합하지 않을 수 있는 수많은 가정에 기초하고 있다”고 설명했다.

웨브 역시 이러한 문제를 인지하고 있다. 그는 “쉽지 않은 문제라는 점에 공감한다”면서 GPT-3가 일부 시험에서는 학부생보다 더 높은 점수를 받았지만 황당한 결과를 보인 시험 분야가 있다는 점을 지적했다. 예를 들어, GPT-3는 발달 심리학자들이 종종 어린이들을 대상으로 진행하는 물리적 개체에 대한 유추적 추론 시험조차 통과하지 못했다는 것이다.

이 시험에서 웨브와 그의 동료들은 GPT-3에 하나의 유리병에서 다른 유리병으로 보석을 옮기는 마법의 요정에 대한 이야기를 들려준 뒤 포스터보드나 튜브형 골판지와 같은 물체를 사용해서 한 그릇에서 다른 그릇으로 풍선껌을 옮기려면 어떻게 해야 하는지 물었다. 이 시험의 기본 가정은 마법의 요정이 보석을 옮기는 이야기를 듣고 나면 문제를 해결하는 방법에 대한 단서를 얻을 수 있다는 것이다. <네이처> 논문에서 연구원들은 “GPT-3는 대부분 관련이 없는 수많은 단계들로 구성된, 상세하지만 기계적으로 무의미한 해결책들을 내놓았고 풍선껌을 다른 그릇으로 옮길 수 있는 명확한 해결책을 제시하지 못했다”고 밝혔다.

웨브는 “이 문제는 아이들도 쉽게 풀 수 있는 문제지만 AI 시스템은 이처럼 인간에게 매우 당연한 능력으로 여겨지는 기본 물리학이나 사회적 상호 작용처럼 실제 세계에 대한 이해를 수반하는 활동에 매우 취약한 경향이 있다”고 인정했다.

그렇다면 우리는 변호사 시험에는 합격했지만 유치원생도 푸는 문제는 풀지 못하는 기계를 어떻게 이해해야 할까? GPT-4 같은 LLM은 책, 블로그, 팬(fan) 소설, 기술 보고서, 소셜 미디어 게시물 등 인터넷에서 수집한 방대한 양의 문서를 학습한다. 이 과정에서 과거에 시행된 시험 문서들이 대거 포함되었을 가능성도 있다. 한 가지 가능한 시나리오는 GPT-4와 같은 모델이 훈련 데이터에 포함된 전문 시험이나 학업 시험에 다수 노출되어 문제에 대한 답을 자동 완성하는 방법을 학습했을 수 있다는 것이다.

웨브는 이러한 시험의 질문과 답변 중 상당수를 온라인에서 찾을 수 있다고 설명하며 “시험 문제 중 대부분이 GPT-3 및 GPT-4의 훈련 데이터에 포함되었을 것이 거의 확실하기 때문에 어떤 결론도 내릴 수 없다고 생각한다”고 말했다.

오픈AI는 GPT-4에 실시한 시험에 포함된 텍스트가 모델의 훈련 데이터에 포함되지 않았음을 확인했다고 밝혔다. 마이크로소프트와 함께 진행한 의료계 종사자를 위한 시험 관련 작업에서 오픈AI는 GPT-4의 훈련 데이터에 포함된 문제가 출제되지 않도록 유료 회원만 확인할 수 있는 시험 문제를 이용했다. 그러나 이러한 사전 조치도 완벽한 해결책이 되지 못했다. GPT-4가 정확히 동일하지는 않더라도 출제된 시험과 유사한 시험을 과거에 접했을 가능성을 배제할 수 없기 때문이다.

머신러닝 엔지니어인 호러스 헤(Horace He)는 GPT-4에 코딩 대회를 주최하는 웹사이트인 코드포스(Codeforces)에서 수집한 문제를 풀도록 했을 때 GPT-4가 2021년 이전 게시된 코딩 시험에서는 10점 만점을 받았지만 2021년 이후 게시된 시험에서는 10점 중 0점을 받았다는 사실을 발견했다. 또한 GPT-4의 시험 점수가 2021년 이후에 만들어진 자료에 치중되어 있다고 지적한 사람들도 있었다. 일부는 모델의 훈련 데이터에 2021년 이전에 수집된 텍스트만 포함되어 있기 때문에 LLM의 시험 결과가 지능보다는 일종의 암기 능력에 대한 증거라고 주장한다.

웨브는 실험에서 이러한 가능성을 방지하기 위해 처음부터 새로운 유형의 시험을 출제했다. 그는 “우리가 주된 관심사는 LLM이 새로운 유형의 문제를 이해할 수 있는지 파악하는 것”이라고 말했다.

웨브와 동료들은 레이븐 지능검사(Raven’s Progressive Matrices)라는 유추적 추론 검사 방식을 채택했다. 이 검사는 여러 개의 도형이 수직이나 수평 방향으로 나열된 이미지들로 구성된다. 응시자는 다양하게 제시된 도형에서 패턴을 파악하고 이를 새로운 도형에 적용해야 한다. 레이븐 지능검사는 유아 및 성인용 검사에서 비언어적 추론 능력을 평가하는 데 사용되며, IQ 검사에서 흔히 등장한다.

연구진은 실험을 위해 이미지 모양, 색상 및 위치를 일련의 숫자로 인코딩했다. 웨브는 이런 작업을 거치고 나면 어떤 훈련 데이터에도 포함되지 않은 시험이 만들어진다고 설명한다. 그는 “나는 이 데이터 세트를 완전히 새로 만들었다”면서 “이런 데이터 세트를 단 한 번도 보지 못했다”고 주장했다.

미첼은 웨브의 연구를 높이 평가했다. 그녀는 “매우 흥미롭고 기발한 연구라고 생각하며, 훌륭한 접근 방식이다”라고 말했다. 하지만 석연치 않은 부분도 있다. 미첼은 구글 연구원 프랑수아 숄레이(François Chollet)가 개발한 ARC(추상 및 추론 문제, Abstraction and Reasoning Challenge) 데이터 세트에서 인용한 여러 개의 인코딩된 모양을 사용하여 콘셉트ARC(ConceptARC)라는 유추적 추론 시험을 새로 개발했다. GPT-4는 기존의 데이터 세트를 활용한 미첼의 실험에서도 사람들보다 낮은 점수를 받았다.

또한 미첼은 이미지를 숫자의 배열(또는 행렬)로 인코딩하면 퍼즐의 시각적 특징이 사라지기 때문에 AI 프로그램이 더 쉬운 문제를 풀게 된다고 지적했다. 그녀는 “숫자 행렬 문제를 푸는 것을 레이븐 검사 문제를 푸는 것과 동일시할 수 없다”고 말했다.

시험의 취약성

LLM의 불안정한 면이 있다. 사람의 경우에는 누군가 시험에서 좋은 점수를 받으면 다른 비슷한 시험에서도 점수가 높을 것이라고 쉽게 추론할 수 있다. 하지만 LLM의 경우에는 이야기가 다르다. 테스트의 내용을 조금만 바꿔도 점수가 A 등급에서 F등급으로 떨어질 수 있다.

영국 케임브리지 대학교의 심리학자 루시 체크(Lucy Cheke)는 “일반적으로 AI 평가는 지금까지 이러한 모델이 지닌 기능을 실제로 이해할 수 있는 방식으로 수행되지 않았다”면서 “어떤 시스템이 특정 작업을 얼마나 잘 수행하는지 테스트하는 것은 매우 합리적이지만 작업을 수행하도록 한 후 일반적인 능력에 대해 평가를 내리는 것은 타당하지 않다”고 비판했다.

마이크로소프트 연구팀이 지난 3월 발표한 논문을 예로 들어보자. 이 논문에서 연구팀은 “GPT-4에서 인공 일반 지능(artificial general intelligence)의 가능성”을 확인했다고 주장했다. 이 팀은 다양한 종류의 테스트로 LLM을 평가했다. 한 테스트에서 연구팀은 GPT-4에 어떻게 하면 책 1권, 계란 9개, 노트북 1개, 유리병 1개, 못 1개를 안정적으로 쌓을 수 있는지 물었다. GPT-4는 “노트북이 화면이 아래를 향하고 키보드가 위를 향하도록 해서 계란 위에 놓는다. 노트북은 책과 계란의 경계 안에 꼭 맞을 것이며, 노트북의 평평하고 단단한 표면은 다음 층을 쌓을 수 있는 안정적인 플랫폼 역할을 할 것이다”라고 답했다.

완전히 틀린 답변은 아니다. 그러나 미첼이 질문을 약간 바꿔 이쑤시개 1개, 푸딩 1개, 물 1잔, 마시멜로 1개를 쌓을 수 있는 방법을 묻자 GPT-4는 이쑤시개를 푸딩에 꽂고 마시멜로를 이쑤시개에 꽂은 후 마시멜로 위에 물이 가득 찬 컵을 잘 올려 균형을 맞추라고 제안했다(GPT-4는 답변을 마치며 “이 더미는 섬세하고 안정적이지 않을 수 있다는 점에 유의해야 한다. 더미가 무너지거나 사고가 발생하는 것을 막으려면 더미를 쌓거나 다룰 때 주의하라”고 당부하는 것도 잊지 않았다).

논란의 여지가 있는 사례가 하나 더 있다. 지난 2월 스탠퍼드 대학교의 연구원 미할 코신스키(Michal Kosinski)는 “GPT-3에서 마음 이론이 부산물의 형태로 자연스럽게 나타날 수 있다는 사실을 증명했다”고 주장하는 내용의 논문을 발표했다. 마음 이론은 타인의 정신 상태를 추정할 수 있는 인지 능력을 의미하며, 이는 대부분의 아동이 3세에서 5세 사이에 습득하는 대표적인 정서적·사회적 지능이다. 코신스키는 GPT-3가 인간의 능력을 평가하는 데 사용되는 기본 테스트들을 통과했다고 발표했다.

가령 그는 “팝콘이 가득 담긴 봉지가 있다. 이 봉지에 초콜릿은 없다. 하지만 봉지에 붙은 라벨에는 ‘팝콘’이 아니라 ‘초콜릿’이라고 적혀 있다. 샘(Sam)이 봉지를 발견한다. 그녀는 전에 그 봉지를 본 적이 없다. 그녀는 봉지 안에 무엇이 있는지 확인할 수 없다. 그녀는 라벨을 읽는다”라는 시나리오를 GPT-3에 제시했다

그런 다음 그는 이 언어모델이 “그녀는 봉지를 열고 안을 본다. 그녀는 봉지 안에 …이(가) 가득 들어있다는 것을 분명히 확인할 수 있다”라는 문장과 “그녀는 봉지 안에 …이(가) 가득 들어있다고 생각한다”는 문장을 완성하라고 지시했다. GPT-3는 첫 번째 문장과 두 번째 문장에 각각 ‘팝콘’과 ‘초콜릿’이라는 단어를 추가하여 문장을 완성했다. 그는 이러한 답변이 GPT-3가 세계의 실제 상태와 이에 대한 샘의 (잘못된) 생각 사이의 차이를 이해하기 때문에 최소한 기본적인 형태의 마음 이론을 드러내는 증거라고 주장한다.

코신스키의 연구 결과는 물론 큰 화제가 되었다. 이를 즉시 반박한 사람들도 있었다. 체크는 “나는 트위터에서 다소 격하게 반응했다”고 회고했다.

샤피라와 하버드 대학교의 인지과학자인 토머 울먼(Tomer Ullman)을 포함한 여러 연구자들은 코신스키가 사용한 시험을 조금만 변형해도 LLM이 잘못된 답변을 내놓는다는 것을 증명하는 반례들을 공개했다. 울먼은 “LLM의 개발 원리에 대한 나의 지식을 고려할 때 코신스키의 연구 결과는 좀처럼 믿기 어려웠다”고 밝혔다.

울먼은 코신스키의 테스트 시나리오를 GPT-3에 (샘이 가방 안에 든 팝콘을 볼 수 있도록) ‘초콜릿’이라는 라벨이 붙은 팝콘 봉지가 투명하다고 설명하거나 (샘이 라벨을 보고 착각하지 않도록) 샘은 글을 읽을 수 없다고 안내하는 내용으로 조금 수정했다. 울먼은 몇 가지 추론 단계를 추가로 거쳐야만 제시된 상황을 정확히 이해할 수 있는 경우 GPT-3가 매번 샘의 정신 상태를 잘못 추론한다는 사실을 알아냈다.

샤피라는 “인간을 위해 설계된 인지 시험이나 학업 시험이 LLM의 기능을 정확하게 측정할 수 있다는 가정은 언어모델을 의인화하고 평가를 인간의 기준에 맞추려는 경향에서 발생한다. 하지만 이러한 가정은 틀렸다”고 말했다.

체크는 명확한 해법을 제시한다. 그녀는 과학자들이 수십 년 동안 인간이 아닌 생물의 인지 능력을 평가해 왔다고 설명한다. AI 연구자들은 인간의 편견으로 인해 성급한 일반화가 나타나는 것을 방지하기 위해 개발된 동물 연구 기법을 AI에 적용할 수 있다.

체크는 미로에 갇힌 쥐를 예로 들며 “쥐가 어떻게 길을 찾는가? 이 경우에는 인간 심리학에서 취하는 가정들이 유효하게 성립하지 않는다”고 주장했다. 대신 연구자들은 쥐가 어떤 정보를 어떻게 사용하는지 파악하기 위해 일련의 통제된 실험을 수행하며 가설을 하나씩 검증하고 걸러야 한다.

그녀는 “언어모델을 다룰 경우 작업은 더 복잡해진다. 쥐의 언어를 이용하는 테스트가 있는 따로 있는 것도 아니기 때문이다. 새로운 연구 분야이지만 근본적인 작업 수행 방식 중 상당수는 그대로 유지된다. 다만 작은 미로가 아닌 언어를 이용하여 실험을 해야 할 뿐이다”라고 말했다.

바이딩거도 비슷한 접근 방식을 취한다. 바이딩거와 그녀의 동료들은 심리학자들이 아직 말을 할 수 없는 인간 유아의 인지 능력을 평가하는 데 사용하는 기술을 적용하고 있다. 이 연구의 핵심 아이디어 중 하나는 특정 능력에 대한 테스트를 세분화하여 연관된 능력도 찾아낼 수 있는 여러 개의 테스트를 만들어내는 것이다. 예를 들어, 유아가 타인을 돕는 방법을 학습했는지 여부를 평가할 경우 심리학자는 유아가 타인에게 방해가 되는 행위도 이해하고 있는지 여부도 평가할 수 있다. 이러한 접근 방법은 테스트를 전반적으로 더욱 강력하게 만든다.

문제는 이런 종류의 실험에 많은 시간이 걸린다는 것이다. 체크는 연구팀이 몇 년간 쥐의 행동을 분석할 수도 있다고 이야기한다. 하지만 AI는 훨씬 빠른 속도로 진화한다. 울먼 “시스템에서 X라는 동작이 나타난다는 주장과 관련하여 평가를 통해 X 동작이 나타내지 않는다는 사실이 검증될 무렵에는 새로 개발된 시스템에서 X 동작이 나타난다고 주장한다”며 LLM의 평가 작업을 끊임없는 노역의 굴레에 갇힌 시지프스의 형벌에 비유했다.

규칙 왜곡 문제

미첼은 50년 전 사람들이 체스에서 그랜드 마스터를 이기려면 사람만큼 똑똑한 컴퓨터가 필요하다고 생각했다고 지적한다. 그러나 체스를 정복한 것은 인간이 아니라 숫자 작업에 능한 기계였고, 승리의 비결은 지능이 아니라 무차별 대입이었다.

체스 이후에도 AI는 이미지 인식, 바둑 등 비슷한 과제들을 다수 섭렵했다. 게임을 하거나 언어를 사용하는 등 컴퓨터에게 인간의 지능이 필요한 과제가 제시될 때마다 분야는 세분화된다. LLM은 이제 스스로 변곡점을 마주하게 되었다. 미첼은 “우리 모두가 지능의 개념에 대해 고민해 볼 때”라고 주장했다.

GPT-4가 모든 테스트를 통과한다면 우리는 이를 진정한 지능을 나타내는 것으로 이해해야 하는가? 아니면 이는 수십억 줄의 텍스트에서 수조 개의 상관관계로 가득한 데이터를 무작위로 추출한 통계적 기법의 결과물에 불과한가? 후자의 작업은 효과적이지만 궁극적으로 지능적인 작업과는 거리가 멀다.

미첼은 “당신이 ‘GPT-4가 변호사 시험에 합격했다고 해도 이런 결과가 LLM이 지능적이라는 것을 의미하지는 않는다’고 말하면 사람들은 ‘연구 규칙을 왜곡한다’고 비판하지만 ‘규칙을 왜곡한다’는 표현과 ‘우리가 지능의 개념을 오해하고 있다’는 표현 중 어느 편이 옳은가?”라고 반문했다.

결국 관건은 LLM이 인간의 작업을 수행하는 방식이다. 몇몇 연구자들은 더 이상 시험 점수에 집착하지 않고 언어모델 내부에서 진행되는 작업을 파악하려 한다. 미첼은 “LLM의 지능을 진정으로 이해하고 언어모델이 지능적이라고 표현하기 위해서는 이 모델의 추론 메커니즘을 이해해야 한다고 생각한다”고 밝혔다.

울먼도 이러한 입장에 동의한다. 그는 “규칙을 왜곡한다고 생각하는 사람들의 입장을 이해하지만 연구 규칙은 오랫동안 끊임없이 변해 왔다”면서 “차이점은 현재 우리가 LLM이 어떻게 이러한 테스트를 통과하고 있는지 알 수 없다는 것이며, 우리는 그저 언어모델이 시험을 통과했다는 소식을 들었을 뿐이다”라고 설명했다.

문제는 LLM이 어떻게 작동하는지 정확히 아는 사람이 아무도 없다는 것이다. 방대한 통계 모델 내부의 복잡한 메커니즘을 따로 분해하기는 어렵다. 하지만 울먼은 언어모델을 역설계(reverse-engineer)함으로써 모델이 다양한 테스트를 통과하기 위해 어떤 알고리즘을 사용하는지 알아내는 작업이 이론적으로 가능하다고 믿는다. 그는 “누군가가 언어모델이 실제로 어떤 기능을 학습했는지 알아내는 기술을 개발한다면 스스로 더욱 확신할 수 있을 것”이라고 덧붙였다.

그러면서 “근본적인 문제는 LLM이 어떻게 시험을 통과했는지가 아니라 시험 결과에만 집중하고 있다는 것”이라고 지적했다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.