Language models like GPT-3 could herald a new type of search engine

GPT-3 같은 AI 언어 모델, 검색을 바꾼다

이십 년 가까이 변화가 없던 인터넷 검색 엔진에 새로운 바람이 불고 있다. 구글 연구팀은 마치 실제 전문가와 대화하는 듯한 검색 경험을 제공할 새로운 아이디어를 연구 중이다.

1998년, 스탠포드대 대학원생들이 새로운 유형의 검색 엔진에 대한 연구 논문을 발표했다. 논문 저자들은 “이 논문에서 우리는 하이퍼 텍스트 구조를 주로 사용하는 대규모 검색엔진 플랫폼, 구글을 소개한다. 구글은 웹을 효율적으로 탐색하고 인덱싱하여 기존 시스템보다 훨씬 더 만족스러운 검색 결과를 제공하도록 설계되었다”라고 밝혔다.

이 엔진의 최대 혁신은 바로 ‘페이지랭크(PageRank)’라는 알고리즘이다. 웹 페이지 간 링크 연결을 바탕으로 검색어와의 관련성을 계산해 검색 결과 순위를 매긴다. 이 알고리즘은 훗날 구글을 인터넷 필수 관문으로 만들었으며, 페이지랭크를 만든 세르게이 브린(Sergey Brin)과 래리 페이지(Larry Page)는 세계 최대 기업 중 하나를 일구었다.

하지만, 이제 구글 연구팀은 이러한 순위 접근법을 버리고 단일 대형 AI 언어 모델로 대체하는 급진적 재설계를 제안했다. 이 단일 대형 AI 언어 모델은 BERT나 GPT-3의 미래 버전에 해당할 것이다. 방대한 웹 페이지 목록에서 정보를 검색하는 대신, 사용자가 질문하면 웹 페이지들의 데이터로 훈련된 언어 모델이 직접 답하도록 하는 것이다. 이는 검색 엔진의 작동 방식뿐 아니라 사용자가 검색 엔진과 상호 작용 방식도 바꿀 것이다.

그러기 위해서는 먼저 기존 언어 모델의 문제점을 해결해야 한다. 그 중에는 이러한 AI 모델이 사용자 요청에 대해 편향적이고 유해한 응답을 생성한다는 문제도 있다. 이는 구글에 있는 연구자들을 포함, 많은 연구자들이 지적하는 바다.

페이지랭크를 재검토하다.

웹이 폭발적으로 성장했음에도 검색 엔진은 더 빠르고 정확해지고 있다. 이제 구글은 검색 결과 순위를 매기기 위해 인공지능을 사용하고, 검색어를 더 잘 이해하기 위해 BERT를 활용한다. 그러나 이러한 변화 속에서도 검색 엔진은 20년 전과 비교하여 크게 달라진 점은 없다. 웹 페이지는 크롤러(쉬지 않고 웹 페이지들을 읽고 찾아낸 모든 것의 목록을 유지하는 소프트웨어)에 의해 색인이 생성되며 사용자 쿼리와 일치하는 결과를 해당 인덱스에서 수집하고, 그 결과를 순위로 매긴다.

구글 리서치의 도널드 메츨러(Donald Metzler)와 그의 동료들은 “인덱스 분류 후 순위를 정하는 방식은 시간의 검증을 거쳤으며, 심각하게 도전받거나 재검토된 바 없다”라고 논문에 썼다. (메츨러는 코멘트 요청을 거부했다.)

문제는 현재 최고 수준의 검색 엔진이라도 여전히 정보 자체가 아닌 요청한 정보를 포함한 문서 목록으로 검색에 응답한다는 점에 있다. 여러 소스에서 답을 도출해야 하는 쿼리에 잘 대응하지 못한다는 문제도 있다. 이는 마치 의사에게 진료를 받은 후, 처방전 대신 참고할 만한 기사 목록을 받은 것 같은 것과 같다.

메츨러와 그의 동료들은 실제 전문가처럼 답변 활동을 할 수 있는 검색 엔진 개발에 중점을 두고 있다. 두 개 이상의 문서에서 합성된 자연어로 답변을 생성하고 위키백과에 올라오는 기사들처럼 증거를 뒷받침하는 답변을 자동으로 백업하는 검색 엔진 말이다.

그들이 찾는 해답은 대규모 언어 모델에 있다. 방대한 웹 페이지와 수백권의 책으로 학습한 GPT-3는 질문에 자연어로 답하기 위해 여러 출처에서 정보를 끌어온다. 문제는 언어 모델이 정보의 출처를 추적하지 못해 대답에 대한 증거를 제공할 수 없다는 것이다. GPT-3가 앵무새처럼 읊고 있는 것이 신뢰할 수 있는 정보인지 거짓 정보인지, 아니면 스스로 만들어낸 헛소리인지 우리는 알 길이 없다.

메츨러와 그의 동료들은 언어 모델을 아마추어 평론가라고 부른다. “AI 언어 모델은 많은 것을 알고 있는 듯 보이지만 그 지식 수준은 너무나 얄팍하다”라는 것이다. 이들은 향후 BERT와 GPT-3가 단어 출처에 대한 기록을 유지할 수 있도록 개발 및 훈련하는 것이 해결책이라고 주장한다. 아직 출처를 추적할 수 있는 완벽한 모델은 구현되어 있지 않지만, 이는 원칙적으로 가능한 작업이며 이미 초기 작업을 진행 중에 있다.

영국 셰필드대학(University of Sheffield)에서 웹 정보 검색을 연구하는 장쯔치(Ziqi Zhang)는 쿼리 응답부터 문서 요약, 정보 구성에 이르기까지 다양한 검색 분야에서 수십 년의 변화와 발전이 있었지만 이러한 기술은 각각 특정 문제만을 해결할 수 있어 그 어느 것도 일반화할 수 없다 주장했다. 또한 그는 이 논문에서 가장 중요한 점은 대형 언어 모델들이 이 모든 것들을 동시에 할 수 있다는 점에 있다고 평했다.

그러나 장 연구원은 학습할 텍스트가 적은 기술 또는 전문적 분야에서는 언어 모델이 잘 작동되지 않는 단점이 있다고 지적했다. “양자 역학에 대한 데이터보다 전자상거래에 대한 데이터가 수백 배 더 많을 것”이라고 그는 덧붙였다. 또한, 오늘날의 언어 모델들은 영어에 치우쳐 있어 비영어권 웹에선 제대로 작동하지 않는 문제도 있다.

워싱턴대학에서 자연어 처리를 연구하는 한나하지 시르지(Hanna Hajishirzi)는 이 아이디어는 높게 평가하나 실사용에서는 문제가 될 것이라 경고했다. “대규모 언어 모델은 매우 중요하며 잠재적으로 검색 엔진의 미래라고 생각하지만, 대용량 메모리와 컴퓨터 자원을 필요로 하는 대형 언어 모델은 결코 인덱싱을 대체할 수 없다”라고 주장했다.

하지만 장 연구원는 이러한 접근의 잠재력을 높이 평가하며, “과거에 이러한 검색 서비스는 아예 불가능했다. 대형 언어 모델이 최근에야 등장했기 때문”이라며 “만약 언어 모델이 제대로 작동한다면, 우리의 검색 경험은 크게 변화할 것”이라고 말했다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.