DeepMind says its new language model can beat others 25 times its size

딥마인드, 외부메모리를 사용하는 새로운 방식의 언어모델 발표

딥마인드가 기존 언어모델과 다른 방식을 사용하는 언어모델을 개발했다. 딥마인드의 언어모델 ‘RETRO’는 필요한 내용을 전부 기억하는 대신 외부메모리를 사용하여 필요할 때마다 구문을 검색하는 방식을 사용한다. 이를 통해 언어모델 구축 비용을 상당히 절약할 수 있다.

오픈AI가 언어모델 GPT-3를 발표한 이래로 지난 2년 동안 전 세계에서 가장 유명한 인공지능(AI) 연구소들이 자체적인 언어모델을 개발해왔다. 구글, 메타, 마이크로소프트, 그리고 몇 개의 중국 회사들까지 모두 그럴듯한 텍스트를 생성하고, 인간과 대화를 나눌 수 있으며, 질문에 답할 수 있는 AI를 개발했다.

엄청난 크기의 신경망(neural network)을 기반으로 하기 때문에 ‘대형언어모델(large language model, LLM)’이라고 불리는 이러한 언어모델들은 AI 업계의 지배적인 트렌드가 되었고, 언어를 사용하는 기계의 놀라운 능력 같은 강점과 AI에 내재된 편견과 지속 불가능할 정도의 컴퓨팅 파워를 사용하는 것 같은 약점을 모두 드러냈다.

지금까지는 이러한 상황에 영국의 AI 기업 딥마인드(DeepMind)가 부재한 것이 약간 의아하게 느껴졌다. 그러나 12월 둘째 주에, 알파제로(AlphaZero)와 알파폴드(AlphaFold) 등 AI 업계에서 가장 인상적인 성과를 이루어낸 바 있는 딥마인드가 언어모델에 관한 세 개의 대형 연구를 가지고 마침내 언어모델 시장에 진입했다. 딥마인드의 연구 결과에서 가장 주목할만한 부분은 기존과 다른 방식을 도입한 언어모델이다. 이들이 개발한 언어모델은 텍스트 구문들을 포함하고 있는 거대한 데이터베이스 형태의 외부메모리를 이용해 성능을 개선했다. 이 언어모델은 새로운 문장을 생성할 때 이러한 외부메모리를 마치 커닝 노트처럼 사용할 수 있다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!