Chatbot answers are all made up. This new tool helps you figure out which ones to trust.
챗봇이 내놓은 답변의 신뢰도를 평가하는 새로운 도구가 나왔다
챗GPT와 같은 대형언어모델(LLM)을 기업에서 사용할 때 문제가 되는 것이 ‘환각’이다. MIT의 양자컴퓨팅연구소에서 분사한 한 인공지능(AI) 스타트업이 LLM의 대답을 얼마나 신뢰할 수 있는지를 알려주는 도구를 개발했다.
대형언어모델(LLM)은 말을 잘 지어내는 것으로 유명하다. 실제로 이것은 LLM이 가장 잘하는 일이다. 다만 사실과 허구를 구분하지 못한다는 점 때문에 많은 기업들이 위험성을 감수할 만큼의 사용 가치가 있는지 의문을 품고 있다.
MIT의 양자컴퓨팅연구소에서 분사한 인공지능(AI) 스타트업인 클린랩(Cleanlab)이 민감한 업무를 다루는 사용자들을 대상으로 LLM의 신뢰성을 더 명확히 파악할 수 있게 돕는 새로운 툴을 개발했다. ‘신뢰할 수 있는 언어모델(Trustworthy Language Model, TLM)’이라고 불리는 이 툴은 신뢰도에 따라 LLM이 생성한 모든 결과에 0부터 1 사이의 점수를 부여한다. 이를 통해 사람들은 어떤 응답을 신뢰하거나 기각할지 선택할 수 있다. 한 마디로 이 툴은 챗봇을 대상으로 한 거짓말 탐지기라고 할 수 있다.
클린랩은 LLM의 신뢰성을 우려하는 기업들이 이 툴로 인해 LLM에 다시 호감을 느낄 수 있기를 희망한다. 클린랩의 커티스 노스컷(Curtis Northcutt) CEO는 “사람들은 LLM이 세상을 바꿀 것을 알면서도 ‘환각 증상’에 지나치게 집착하고 있다”고 말했다.