챗봇이 내놓은 답변의 신뢰도를 평가하는 새로운 도구가 나왔다

챗GPT와 같은 대형언어모델(LLM)을 기업에서 사용할 때 문제가 되는 것이 ‘환각’이다. MIT의 양자컴퓨팅연구소에서 분사한 한 인공지능(AI) 스타트업이 LLM의 대답을 얼마나 신뢰할 수 있는지를 알려주는 도구를 개발했다.

Will Douglas Heaven

2024년 5월 6일

대형언어모델(LLM)은 말을 잘 지어내는 것으로 유명하다. 실제로 이것은 LLM이 가장 잘하는 일이다. 다만 사실과 허구를 구분하지 못한다는 점 때문에 많은 기업들이 위험성을 감수할 만큼의 사용 가치가 있는지 의문을 품고 있다.

MIT의 양자컴퓨팅연구소에서 분사한 인공지능(AI) 스타트업인 클린랩(Cleanlab)이 민감한 업무를 다루는 사용자들을 대상으로 LLM의 신뢰성을 더 명확히 파악할 수 있게 돕는 새로운 툴을 개발했다. ‘신뢰할 수 있는 언어모델(Trustworthy Language Model, TLM)’이라고 불리는 이 툴은 신뢰도에 따라 LLM이 생성한 모든 결과에 0부터 1 사이의 점수를 부여한다. 이를 통해 사람들은 어떤 응답을 신뢰하거나 기각할지 선택할 수 있다. 한 마디로 이 툴은 챗봇을 대상으로 한 거짓말 탐지기라고 할 수 있다.

클린랩은 LLM의 신뢰성을 우려하는 기업들이 이 툴로 인해 LLM에 다시 호감을 느낄 수 있기를 희망한다. 클린랩의 커티스 노스컷(Curtis Northcutt) CEO는 “사람들은 LLM이 세상을 바꿀 것을 알면서도 ‘환각 증상’에 지나치게 집착하고 있다”고 말했다.

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!

챗봇이 내놓은 답변의 신뢰도를 평가하는 새로운 도구가 나왔다

개인정보 수집 및 이용

인기 기사

챗봇이 내놓은 답변의 신뢰도를 평가하는 새로운 도구가 나왔다

MIT Technology Review 뉴스레터 구독

가장 빠르게, 가장 편하게 MIT Technology Review의 최신 컨텐츠를 받아 보세요.

개인정보 수집 및 이용

인기 기사

연관 토픽

생성형 AI는 정말 인간의 창의성을 높여줄까?

자율주행 차량에 올인하는 중국 정부의 속내는?

AI 로봇이 간편식도 ‘척척’…인건비 낮추고 제조 속도는 올렸다

가장 지루한 창고 작업 자동화에 뛰어든 AI, 성공하면 큰 사업