[2025.08.11 뉴스레터] 앤트로픽 최신 연구…'악한 행동' 학습이 '착한 AI' 만든다
안녕하세요, MIT 테크놀로지 리뷰 구독자 여러분.
오늘은 다소 역설적인 AI 연구 결과를 하나 소개합니다.
바로 AI에게 ‘악한 행동’을 가르치면 오히려 더 ‘착한’ AI가 될 수 있다는 앤트로픽의 실험입니다.
앤트로픽 연구진이 훈련 과정에서 이 부정적 패턴을 의도적으로 활성화시켰음에도, 모델은 이후에도 유용하고 무해한 응답을 유지했으며, 다른 작업 능력 저하나 에너지 비효율 문제도 거의 없었습니다. 이 접근법은 챗GPT의 ‘과도한 아첨’ 사태나 그록(Grok)의 ‘메카히틀러’ 사건 같은 문제를 사전에 예방할 수 있는 가능성을 보여줍니다.
AI의 성격(persona)을 제어하는 방법은 여전히 논쟁의 여지가 남아있지만, 이번 연구는 그 제어 가능성에 한 발 다가간 의미 있는 시도라 할 수 있습니다.
‘나쁜 것을 알아야, 나쁘지 않을 수 있다’는 이 역설이, 앞으로 AI 안전 연구의 새로운 방향이 될 수 있을까요?
감사합니다.
|
|
|
대형언어모델(LLM)에서 나타나는 아첨이나 악의와 같은 성향은 모델의 특정 활동 패턴과 관련이 있다고 알려져 있습니다. 아이러니하게도 훈련 과정에서 이러한 패턴을 의도적으로 활성화하면 해당 성향이 모델에 나타나는 것을 예방할 수 있다는 사실이 앤트로픽의 새로운 연구를 통해 확인됐습니다.
이는 최근 오픈AI의 챗GPT나 xAI의 그록과 같은 LLM이 비정상적이고 부적절한 행동을 보이며 우려를 낳고 있는 가운데 나온 연구 결과라는 점에서 더욱 큰 의미를 갖습니다.
이번 프로젝트를 이끈 앤트로픽의 연구진은 이와 같은 AI의 이상 사례들이 연구의 출발점이 되었다고 설명하고 있습니다. 특히 모델의 페르소나를 구성하는 신경학적 기반을 찾아낼 수 있다면 왜 이런 현상이 발생하는지를 이해하고 더 효과적으로 제어할 방법도 마련할 수 있을 것이라고 이번 연구의 의의를 설명하고 있습니다.
|
|
|
|
지열 에너지 스타트업 콰이즈(Quaise)가 기존과는 전혀 다른 방식의 굴착 기술을 시험 중이다. 밀리미터파 드릴에서 발사된 고에너지 빔으로 바위를 녹여 뚫는 방식으로, 콰이즈는 이 기술이 지열 발전의 접근성을 획기적으로 넓히는 전환점이 되기를 기대하고 있다. |
|
|
MIT 테크놀로지 리뷰 7-8월호 매거진 출시 |
|
|
MIT 테크놀로지 리뷰 7-8월호
AI는 이제 그림을 그리고, 음악을 작곡하며, 로봇의 형상을 설계하기까지 합니다. 이번 특집에서는 철학적 통찰부터 산업 현장에서 체감한 AI 창의성의 실용적 의미까지 다양한 시선을 담았습니다.
또한 ‘AI 에이전트’의 전면 자율화가 가져올 위험과 기회, MCP 같은 핵심 기술이 열어갈 새로운 미래에 대해서도 다루고 있습니다. 그리고 중국 기업들의 최신 전략까지, 기술 변화의 흐름을 읽는 데 도움이 될 기사들을 확인해 보세요.
|
|
|
MIT 테크놀로지 리뷰를 구독하여 가장 빠르게 테크 분야의 트렌드를 파악하세요. 아직 구독하지 않으셨다면 구독의 혜택을 누려보세요. |
|
|
MIT 테크놀로지 리뷰 코리아customer@technologyreview.kr92, Saemunan-ro, Jongno-gu, Seoul, Republic of Korea, 02-2038-3690수신거부 Unsubscribe |
|
|
|
|