fbpx

KISTI, 한국어 AI 추론 성능 높이는 혼합 언어 기법 개발

사고 과정은 영어로, 답변은 한국어로 생성하는 혼합 언어 기법으로 DeepSeek-R1 수준의 추론 성능을 구현했다.

한국과학기술정보연구원(KISTI) KONI팀이 한국어 특화 거대 언어 모델(LLM, 대규모 텍스트 데이터로 학습한 AI 모델)의 추론 성능을 획기적으로 높이는 기술을 개발했다고 30일 밝혔다.

KONI팀은 비영리 오픈소스 연구단체 해례(HAERAE)팀과 협력해 579만 건의 한국어 네이티브 프롬프트와 370만 건의 장문 추론 경로를 포함한 ‘이상(Yi-SANG)’ 학습 데이터세트를 구축하고, 사고 과정에서는 영어를 활용하고 최종 답변은 한국어로 도출하는 ‘혼합 언어 단계적 사고(Language-Mixed CoT)’ 기법을 적용했다. 이 기술로 학습된 모델은 딥시크(DeepSeek)-R1-32B 등 유사 규모의 글로벌 모델을 제치고 최고 수준의 한국어 추론 성능을 기록했다. 이번 연구 성과는 AI 분야 최고 권위 학술대회인 국제표현학습학회(ICLR)에 논문 2편이 동시 채택되며 인정받았다.

번역 어투 최소화하며 추론 효율 극대화

ICLR은 신경정보처리시스템학회(NeurIPS), 국제머신러닝학회(ICML)와 함께 세계 3대 AI 학회로 꼽히며, 딥러닝과 표현 학습(데이터에서 유용한 특징을 자동으로 추출하는 기술) 분야에서 최정상급 학술대회로 인정받고 있다. 구글, 메타, 오픈AI 등 글로벌 빅테크 기업들이 가장 주목하는 학회다.

KONI팀이 개발한 혼합 언어 단계적 사고 기법은 한국어 전용 모델의 논리적 한계를 극복하면서도 번역 어투를 최소화하고 추론 효율을 극대화했다. 일반적으로 한국어 LLM은 영어 데이터로 사전 학습된 모델을 한국어로 미세 조정하는 방식으로 개발되는데, 이 과정에서 복잡한 논리적 추론에서 성능이 떨어지는 문제가 있었다. 연구팀은 사고 과정에서는 영어의 풍부한 논리 구조를 활용하고, 최종 답변만 자연스러운 한국어로 전환하는 방식으로 이 문제를 해결했다.

구축된 ‘이상’ 데이터세트는 공개된 한국어 사후 학습 데이터자원 중 최대 규모로, 한국어 AI 연구 커뮤니티에 중요한 자원이 될 전망이다. 사후 학습은 사전 학습된 모델을 특정 작업에 맞게 추가로 훈련시키는 과정을 의미한다.

환각 현상 억제하는 LGCD 기술 개발

KONI팀은 특정 언어나 도메인에 모델을 적응시킬 때 기존 지식을 잊어버리는 ‘치명적 망각(Catastrophic Forgetting, 새로운 학습 과정에서 이전에 학습한 지식이 손실되는 현상)’ 문제를 해결하는 ‘저계층 적응 기반 대조 보정(LGCD, LoRA-Gated Contrastive Decoding)’ 기술도 개발했다. 이 기술은 추가 모델 훈련 없이 추론 시점에만 작동하며, 모델 내부 지식을 동적으로 추출해 사실 관계를 보정한다. 고도의 정확성이 요구되는 전문 분야에서 환각 현상(AI가 사실이 아닌 정보를 그럴듯하게 생성하는 현상)을 억제하는 데 도움을 줄 수 있다.

KISTI는 이번 성과로 최근 과학기술정보통신부 업무보고에서 배경훈 부총리 겸 장관이 요청한 ‘독자 파운데이션 모델(독파모, 처음부터 독자적으로 개발한 기초 AI 모델) 기반 KONI 업데이트’에 부응하는 핵심 기술적 토대를 마련했다. KONI팀은 이번 연구를 바탕으로 연구자의 파트너로서 가설을 세우고 실험 데이터를 분석하는 ‘AI 연구동료(AI Co-Scientist)’ 기술 개발을 추진할 계획이다.

이식 KISTI 원장은 “이번 성과는 한국어 AI 기술의 글로벌 경쟁력을 입증한 것”이라며 “KONI 고도화를 지속 추진해 AI 연구동료 개발과 과학을 위한 AI 혁신을 선도하겠다”고 밝혔다.