fbpx

LG AI연구원, 자체 비전 인코더·언어모델 통합한 멀티모달 AI ‘엑사원 4.5’ 공개

텍스트와 이미지를 동시에 이해·추론하는 비전-언어 모델 엑사원 4.5가 AI 시각 능력 평가 13개 지표 평균에서 GPT-5 mini·Qwen3-VL을 상회하며 오픈 웨이트로 공개됐다.

텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 AI 모델이 LG AI연구원에서 개발됐다.

LG AI연구원은 자체 개발한 비전 인코더(Vision Encoder)와 거대언어모델(LLM)을 하나의 구조로 통합한 비전-언어 모델(VLM) ‘엑사원(EXAONE) 4.5’를 공개하고, AI 시각 능력 평가 지표 13개 평균 점수에서 오픈AI GPT-5 mini·앤트로픽 클로드 소넷 4.5·중국 Qwen3-VL을 상회하는 성능을 입증했다고 9일 밝혔다.

이번 모델은 독자 AI 파운데이션 모델 프로젝트인 ‘K-엑사원’의 모달리티 확장을 위한 기술적 토대로, 허깅페이스(Hugging Face)에 연구·학술·교육 목적으로 오픈 웨이트 공개됐다.

비전 인코더와 언어모델의 통합: 멀티모달 VLM 구조의 의미

멀티모달(multimodal) AI란 텍스트뿐 아니라 이미지·음성·영상 등 여러 종류의 정보를 함께 처리할 수 있는 AI 시스템을 가리킨다. 기존 대부분의 AI 언어모델은 텍스트만 처리했지만, 멀티모달 모델은 사진 속 내용을 읽거나 도표의 의미를 해석하는 등 시각 정보와 언어 정보를 동시에 다룰 수 있다. 엑사원 4.5는 이 중에서도 이미지와 텍스트를 함께 처리하는 비전-언어 모델(VLM, Vision Language Model) 유형에 해당한다.

구조적으로 엑사원 4.5는 시각 정보를 AI가 이해할 수 있는 수치 데이터로 변환하는 ‘비전 인코더’와, 자연어를 처리하는 ‘거대언어모델(LLM, Large Language Model)’을 하나의 통합 구조로 결합했다. LG AI연구원이 두 요소를 모두 자체 개발해 통합했다는 점이 특징이다. LG AI연구원은 2021년 12월 국내 최초 멀티모달 AI 모델 ‘엑사원 1.0’을 개발하며 쌓아온 기술력을 이번 모델에 집약했다.

엑사원 4.5는 파라미터(parameter, AI 모델이 학습을 통해 조정하는 내부 수치로 모델의 지식과 능력을 담는 단위) 규모가 330억 개(33B)다. 이는 지난해 말 공개한 ‘K-엑사원’의 약 7분의 1 크기지만, 텍스트 이해 및 추론 영역에서 동등한 수준의 성능을 달성했다. LG AI연구원은 자체 개발한 하이브리드 어텐션 구조와 멀티 토큰 예측 기반의 고속 추론 기술을 적용한 결과라고 설명했다.

엑사원 4.5 글로벌 동급 모델들과의 벤치마크 성능 비교

13개 시각 평가 지표에서 GPT-5 mini·Qwen3-VL 상회…코딩도 Gemma 4 앞서

엑사원 4.5의 성능은 산업 문서 처리에서 특히 두드러진다. 계약서, 기술 도면, 재무제표, 스캔 문서 등 실제 산업 현장에서 다루는 복합 문서를 정확하게 읽고 추론하는 능력에 강점이 있다고 LG AI연구원은 밝혔다. STEM(과학·기술·공학·수학) 성능을 측정하는 5개 지표 평균에서는 77.3점을 기록해 GPT-5 mini(73.5점), 클로드 소넷 4.5(74.6점), 알리바바 Qwen3 235B(77.0점)를 모두 앞섰다.

일반 시각 이해 3개 지표, 이미지와 텍스트가 결합된 인포그래픽을 비롯한 복합 정보 문서 이해 및 추론 5개 지표를 포함한 전체 13개 지표 평균에서도 GPT-5 mini, 클로드 소넷 4.5, Qwen3-VL을 상회하는 성능을 보였다. LG AI연구원 관계자는 “시각 능력 평가 지표에서 높은 평균 점수를 기록했다는 것은 AI가 문서 속 글자나 비정형 데이터를 단순히 인식하는 수준을 넘어, 맥락을 파악하고 질문에 답할 수 있는 이해력을 갖췄다는 의미”라고 설명했다.

코딩 성능 대표 벤치마크인 라이브코드벤치(LiveCodeBench) v6에서는 81.4점으로 구글의 최신 모델 Gemma 4(80.0점)를 앞섰으며, 복잡한 차트를 분석하고 추론하는 능력을 평가하는 ChartQA Pro에서는 62.2점을 기록했다. 벤치마크(benchmark)란 AI 모델의 성능을 객관적으로 비교하기 위해 공통으로 사용하는 표준화된 시험 문제 세트를 가리킨다.

엑사원 4.5 언어 처리 및 추론 성능 비교

오픈 웨이트 공개와 피지컬 인텔리전스로의 확장 목표

LG AI연구원은 이날 엑사원 4.5를 글로벌 오픈소스 플랫폼 허깅페이스에 연구·학술·교육 목적으로 사용할 수 있도록 공개했다. 오픈 웨이트(open weight)란 AI 모델의 학습된 파라미터 값을 외부에 공개해 누구나 내려받아 활용할 수 있도록 하는 방식이다. LG AI연구원은 2024년 8월 엑사원 3.0을 국내 최초로 오픈 웨이트 모델로 공개한 이후 AI 연구 생태계 확장에 기여해왔다. 이달 초에는 엑사원 경량화 모델 개발을 주제로 청년 AI 전문가 육성 프로그램인 ‘LG 에이머스(Aimers)’ 해커톤도 진행했다.

이번 모델은 또한 독자 AI 파운데이션 모델 프로젝트 ‘K-엑사원’의 모달리티(modality, AI가 처리할 수 있는 정보의 종류·형태) 확장을 위한 준비 단계다. LG AI연구원은 올해 8월 프로젝트 2차수 종료 이후 3차수 진출이 확정되면 본격적으로 모달리티 확장에 나설 계획이며, 음성·영상, 물리 환경까지 처리 범위를 넓혀 피지컬 인텔리전스(physical intelligence, 가상 환경을 넘어 물리적 세계를 이해하고 판단하는 AI)로 발전시키는 것을 궁극적 목표로 하고 있다.

한국어와 영어 외에 스페인어, 독일어, 일본어, 베트남어까지 공식 지원 언어를 확장했으며, 한국의 역사·문화·사회적 맥락까지 깊이 이해하는 AI로 발전시키기 위한 노력도 병행하고 있다. LG AI연구원은 올해 1월 동북아역사재단으로부터 데이터를 제공받아 학습을 진행하고 있으며, 자체 설계한 AI 위험 분류체계(K-AUT)를 기반으로 신뢰성 확보도 추진한다고 밝혔다.

엑사원 4.5와 엑사원 4.0 비교