Stephanie Arnett/MIT Technology Review | Public Domain

인공지능

Google DeepMind wants to know if chatbots are just virtue signaling

구글 딥마인드, AI 도덕적 판단 검증 나선다

구글 딥마인드는 AI에 중요한 결정을 맡기기 위해서는 대형언어모델(LLM)의 도덕적 판단 구조를 먼저 정확히 이해하고 검증해야 한다고 밝혔다. LLM의 신뢰성을 높이기 위한 평가 체계 마련이 핵심 과제로 떠오르고 있다.

Will Douglas Heaven

2026년 2월 20일

📋한눈에 보는 AI 요약AI 자동 요약▶ 펼쳐보기

구글 딥마인드 연구진이 AI(인공지능)가 도덕적인 질문에 얼마나 제대로 답할 수 있는지를 엄격하게 검증해야 한다는 연구를 발표했습니다. 현재 AI는 상담사나 의료 조언자 역할까지 맡고 있지만, 질문 방식을 살짝만 바꿔도 정반대 답변을 내놓는 등 도덕적 판단이 불안정한 문제가 있습니다. 연구진은 AI가 진짜 생각해서 답하는 것인지, 아니면 배운 문장을 흉내 내는 것인지 구분하기 어렵다고 지적했습니다. 또한 전 세계 다양한 문화와 가치관을 가진 사람들이 AI를 사용하기 때문에, 하나의 정답만 제시하는 방식으로는 한계가 있다고 설명했습니다. 이를 해결하기 위해 AI의 도덕적 능력을 테스트하는 더 정밀한 검증 방법들을 제안했습니다.

왜 중요한가요?

AI가 점점 더 우리의 중요한 결정에 영향을 미치고 있기 때문에, AI의 도덕적 판단을 믿을 수 있는지 확인하는 것은 우리 모두의 안전과 신뢰에 직결되는 문제입니다.

주요 용어 설명

대형언어모델 (LLM, Large Language Model)

ChatGPT처럼 사람의 말을 이해하고 글을 쓸 수 있는 거대한 AI 프로그램입니다. 엄청나게 많은 텍스트 데이터를 읽고 학습해서 사람처럼 대화하거나 질문에 답할 수 있습니다. 마치 수백만 권의 책을 읽은 뒤 그 내용을 바탕으로 대답하는 것과 비슷합니다.

미덕 신호 (Virtue Signaling)

실제로 도덕적이어서가 아니라, 남들에게 ‘나는 착한 사람’이라고 보여주기 위해 좋은 말이나 행동을 하는 것을 뜻합니다. AI의 경우, 진짜 옳고 그름을 이해해서 답하는 게 아니라 도덕적으로 보이는 답변을 흉내 내는 것일 수 있다는 의미로 사용되었습니다.

기계적 해석 가능성 (Mechanistic Interpretability)

AI가 어떤 답을 내놓았을 때, 그 내부에서 어떤 과정을 거쳐 그 답이 나왔는지를 들여다보는 기술입니다. 마치 자동차 엔진 뚜껑을 열어서 어떤 부품이 어떻게 작동하는지 확인하는 것과 비슷합니다. 다만 아직 AI의 내부를 완벽하게 이해하기는 어렵다는 한계가 있습니다.

AI 에이전트 (AI Agent)

사람을 대신해서 스스로 판단하고 행동까지 하는 AI 프로그램입니다. 예를 들어 사용자 대신 이메일을 보내거나 물건을 주문하는 것처럼, 단순히 답변만 하는 것이 아니라 실제 행동을 수행합니다.

다원성 (Pluralism)

사람마다 서로 다른 가치관, 문화, 믿음을 가지고 있다는 개념입니다. AI가 전 세계 사람들에게 서비스할 때, 특정 문화의 도덕 기준만 적용하면 안 되고 다양한 관점을 존중해야 한다는 문제를 가리킵니다. 예를 들어 같은 음식에 대해서도 종교나 문화에 따라 전혀 다른 판단이 나올 수 있습니다.

⚡ Claude AI가 독자를 위해 자동 생성한 요약입니다. 원문을 함께 읽어보세요.

구글 딥마인드는 대형언어모델(LLM)이 동반자, 치료사, 의료 조언자 등의 역할을 수행할 때 보여주는 ‘도덕적 행동’을 코딩이나 수학 능력과 동일한 수준으로 엄격하게 검증해야 한다고 주장하고 있다.

LLM이 발전하면서 사람들은 AI에 점점 더 민감한 역할을 맡기고 있다. AI 에이전트는 이용자를 대신해 행동하기 시작했고, LLM은 인간의 의사 결정에도 영향을 미칠 수 있다. 그러나 이러한 영역에서 이 기술이 얼마나 신뢰할 수 있는지는 아직 명확하지 않다.

구글 딥마인드 연구원인 윌리엄 아이작(William Isaac)은 필자와 만난 자리에서 최근 동석한 동료 연구원 줄리아 하스(Julia Haas)와 함께 발표한 연구를 소개하며 “코딩이나 수학에는 명확하고 검증 가능한 정답이 존재하지만 도덕적 질문은 대개 여러 개의 허용 가능한 답변이 나올 수 있다”고 말했다. 이는 도덕성은 중요하지만 평가하기 어렵다는 의미다.

이 주제에 대한 두 사람의 연구는 18일(현지시간) 학술지 《네이처》에 게재됐다.

하스 역시 “도덕 영역에선 명확하게 옳고 그른 게 없다”면서도 “그렇다고 무질서한 영역이란 뜻은 아니고, 더 나은 답변과 더 나쁜 답변은 분명히 존재한다”고 설명했다.

두 연구자는 여러 핵심 과제를 제시하고 이를 해결하기 위한 방향을 제안했다. 다만 이는 완성된 해결책이라기보다는 향후 연구를 위한 ‘희망 목록’에 가깝다. 독일 자를란트대학교에서 LLM을 연구하는 베라 뎀버그(Vera Demberg) 교수는 “아이작과 하스의 연구는 다양한 관점을 잘 종합한 연구”라고 평가했다.

도덕적 판단인가, 학습된 연기인가

MIT 테크놀로지 리뷰와 함께, 미래를 앞서가세요 !!
한달에 커피 2잔값으로 즐기기
온라인 멤버
지면 매거진 멤버
(온라인+지면) 프리미엄 멤버

유료회원 플랜 보기 회원이면 로그인하기 회원가입

회원 가입 후 유료 구독 신청을 하세요 !!

구글 딥마인드, AI 도덕적 판단 검증 나선다

도덕적 판단인가, 학습된 연기인가

개인정보 수집 및 이용

인기 기사

구글 딥마인드, AI 도덕적 판단 검증 나선다

도덕적 판단인가, 학습된 연기인가

MIT Technology Review 뉴스레터 구독

가장 빠르게 최신 콘텐츠를 받아 보세요.

개인정보 수집 및 이용

인기 기사

연관 토픽

‘지금 AI 분야에서 주목해야 할 10대 키워드’ 21일 첫 공개

AI에 대한 시각이 엇갈리는 이유

스탠퍼드대 AI 인덱스 공개, 한국 AI 강국으로의 길 어디쯤 와 있나?

AI가 내 일자리 뺏을까?…예측할 ‘결정적 데이터’가 없다