fbpx
This startup’s new mechanistic interpretability tool lets you debug LLMs

AI 환각 사라질까…LLM 내부 분석해 고치는 새 도구 나왔다

미국 스타트업 굿파이어가 AI 모델 내부를 분석하고 조정할 수 있는 도구를 공개했다. 이 기술은 모델 훈련 과정을 디버깅 가능한 공학적 과정으로 바꾸는 것을 목표로 한다.
📋한눈에 보는 AI 요약AI 자동 요약▶ 펼쳐보기

굿파이어라는 스타트업이 ‘실리코’라는 새로운 도구를 만들었습니다. 이 도구를 사용하면 AI 모델의 내부를 마치 기계 부품을 살펴보듯 들여다보고, 어떤 부분이 잘못된 답변을 만들어내는지 찾아서 고칠 수 있습니다. 지금까지 AI가 왜 특정한 대답을 하는지 알기 어려웠는데, 실리코를 쓰면 문제를 일으키는 부분을 정확히 찾아 조절할 수 있게 됩니다. 이 기술은 AI가 거짓 정보를 만들어내는 현상을 줄이는 데에도 이미 활용되고 있습니다. 그동안 대형 연구소만 할 수 있었던 일을 중소기업이나 일반 연구팀도 할 수 있도록 제품으로 만들어 제공하는 것이 목표입니다.

왜 중요한가요?

AI가 엉뚱한 정보를 만들어내거나 위험한 판단을 내리는 문제는 의료, 금융 등 안전이 중요한 분야에서 큰 피해를 줄 수 있으므로, AI 내부를 정확히 이해하고 고칠 수 있는 기술은 우리 사회의 안전과 직결됩니다.

주요 용어 설명
기계적 해석 가능성 (Mechanistic Interpretability)

AI 모델 내부의 뉴런과 연결 경로를 하나하나 추적해서 AI가 왜 그런 결과를 내놓았는지 원리를 밝혀내는 기술입니다. 마치 복잡한 시계를 분해해서 각 톱니바퀴가 어떤 역할을 하는지 알아내는 것과 비슷합니다. 이를 통해 문제가 되는 부분을 정확히 찾아 수정할 수 있습니다.

매개변수 (Parameters)

AI 모델이 판단을 내릴 때 참고하는 수많은 숫자 설정값입니다. 라디오의 다이얼처럼 이 값들을 조절하면 AI의 행동이 달라집니다. 대형 AI 모델에는 이런 설정값이 수십억에서 수조 개까지 존재합니다.

⚡ Claude AI가 독자를 위해 자동 생성한 요약입니다. 원문을 함께 읽어보세요.

샌프란시스코에 소재한 스타트업 굿파이어(Goodfire)는 최근 ‘실리코(Silico)’라는 새로운 도구를 출시했다. 이는 연구자와 엔지니어가 훈련 과정에서 AI 모델의 내부 구조를 들여다보고, 모델의 동작을 결정하는 설정인 매개변수를 조정할 수 있는 도구다. 이를 통해 모델 제작자는 지금까지 불가능하다고 여겨졌던 수준까지 AI 모델 구축 과정을 더 세밀하게 제어할 수 있게 된다.

굿파이어는 실리코가 데이터세트 구축부터 모델 훈련에 이르기까지 AI 모델 개발 과정의 전 단계에서 개발자들이 디버깅할 수 있도록 돕는 최초의 상용 도구라고 주장한다. 디버깅은 프로그램 안의 오류나 이상 동작을 찾아 원인을 분석하고 수정하는 과정을 의미한다.

굿파이어는 또한 AI 모델 구축을 연금술 같은 과정이 아니라 과학적인 과정으로 만드는 것을 사명으로 삼고 있다고 주장한다. 실제로 챗GPT나 제미나이 같은 대형언어모델(LLM)은 놀라운 일을 해낼 수 있지만, 정확히 어떻게 또는 왜 그런 결과가 나오는지 아무도 알지 못하기 때문에 결함을 수정하거나 원치 않는 행동을 차단하기가 어려울 수 있다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!