
AI가 만든 문장을 어떻게 알아차릴 수 있을까
이 문장은 AI가 작성했을까? 아니면 사람이 쓴 것일까? 오픈AI(OpenAI)가 내놓은 AI 챗봇 챗GPT(ChatGPT)가 새로운 문제를 제기하고 있다. 우리는 온라인에서 읽은 글이 사람이 썼는지 아니면 기계가 작성했는지 어떻게 구별할 수 있을까?
지난해 11월 말 오픈AI가 내놓은 챗GPT는 지금까지 100만 명 이상의 사용자를 만들었다. AI 커뮤니티는 챗GPT의 매력에 흠뻑 빠졌고, 인터넷은 점점 AI가 생성한 문장으로 홍수를 이루고 있다. 사람들은 재미있는 유머를 만들어내고, 아이들을 위해 동화를 지어내고, 더 나은 이메일을 작성하기 위해 챗GPT를 활용하고 있다.
챗GPT는 오픈AI의 대형 언어 모델 GPT-3의 스핀오프 버전으로 주어진 질문에 사람이 실제 말하는 것 같은 답변을 생성한다. 이러한 대형 언어 모델들의 특성과 위험성은 실제처럼 착각하기 쉬운 AI의 정확성에서 나온다. 이들이 생성한 문장은 알맞은 단어들을 정확한 순서대로 사용하기 때문에 올바른 듯 보인다. 그러나 정작 AI는 그 문장이 무엇을 의미하는지 모른다. 한 문장을 만들 때 다음에 올 가능성이 가장 높은 단어를 예측해 배열할 뿐이다. 이 언어 모델들은 무엇이 옳고 그른지 알 수 없고, 심지어 잘못된 경우에도 그 정보를 사실처럼 당당히 제시한다.
이미 양극화되고 정치적 콘텐츠가 가득한 온라인 세상에서 이러한 AI 모델들은 우리가 다루는 정보를 더 왜곡할 수 있다. 이 모델들이 실제 제품으로 현실에 출시된다면 그 결과는 끔찍할 것이다.
AI 스타트업 회사 허깅 페이스(Hugging Face)의 정책 책임자인 아이린 솔레이먼(Irene Solaiman)은 이 기술의 오용 가능성에 대응하기 위해 사람이 작성한 문장과 AI가 작성한 문장을 가려낼 방법이 절실히 필요하다고 말한다. 솔레이먼은 과거 오픈AI에서 연구원으로 일하면서 GPT-3의 이전 모델인 GPT-2를 개발하는 과정에서 AI 가 생성하는 문장의 검출에 관한 연구를 진행한 바 있다.
새로운 AI 생성 문장 검출 수단은 AI로 생성한 문장 및 프로그래밍 코드의 금지 정책 시행에 중요한 역할을 할 것이다. 프로그래머들이 코드 작성에 대한 질문을 올리고 도움을 주고받는 웹사이트 스택 오버플로(Stack Overflow)는 최근 AI로 생성한 코드로 답변을 게시하는 행동을 금지한다고 발표했다. 챗GPT는 소프트웨어에서 발생한 문제들에 대해 확신에 찬 답을 계속 내놓을 수 있지만, 그 답이 모두 옳은 것은 아니다. 잘못된 코드를 입력하면 버그가 발생하고 소프트웨어가 손상될 수 있다. 이 과정에서 비용이 많이 소요될 뿐만 아니라 수습하기 어려운 혼란을 초래할 수 있다.
스택 오버플로의 대변인은 회사의 관리자들이 “직관적으로 판단하기(heuristic)와 검출 모델 등 여러 수단을 동원해 수 천 개에 이르는 커뮤니티 이용자들의 글을 검토하고 있다”라고 말했다. 그러나 더 이상의 자세한 내용은 언급하지 않았다.
그러나 현실적으로 AI로 생성한 코드를 찾기는 어려운 일이고 금지 정책의 시행 또한 거의 불가능할 것이다.
현재의 검출 수단들
연구자들은 AI가 생성한 문장을 검출하기 위해 다양한 방법을 시도하고 있다. 그 중 한 가지 방법은 소프트웨어를 사용해 문장의 특징을 분석하는 것이다. 예를 들어 얼마나 매끄럽게 읽히는지, 특정 단어들이 얼마나 자주 나타나는지, 구두점이나 문장 길이에 패턴이 있는지 등을 분석한다.
구글의 딥러닝 연구부서 구글 브레인(Google Brain)의 선임 연구원 다프네 이폴리토(Daphne Ippolito)는 “문장을 충분히 확보했다면 가장 쉽게 나타나는 단서는 지나치게 많은 ‘the’의 사용이다”라고 말했다.
대형 언어 모델(LLM)은 한 문장을 만들 때 다음에 오게 될 단어를 예측하여 배열하는 방법을 사용한다. 그 때문에 확실성이 떨어지고 흔치 않은 단어 대신 ‘the’, ‘it’, ‘is’와 같이 일반적인 단어를 자주 사용할 가능성이 높다. 자동 검출 시스템은 이런 유형의 문장들을 잘 찾아낸다. 이폴리토와 구글 연구원들은 2019년 관련 연구를 발표했다.
이폴리토의 연구는 한 가지 더 흥미로운 사실을 알려준다. 연구에 참여한 사람들은 AI로 생성한 ‘깔끔한’ 문장이 더 올바르고 실수가 적어 보여서 사람이 작성했을 것이라고 짐작하는 경향이 있었다.
그러나 현실에서 사람이 작성한 문장은 오타투성이에 각자 다른 스타일과 속어가 포함되어 있어 매우 가변적이다. 반면 “언어 모델은 오타가 거의 없고 더 완벽한 문장을 만들어낸다”라고 이폴리토는 말했다.
이어서 그녀는 “오타는 사실 사람이 작성한 문장을 구별하는 좋은 지표다”라고 덧붙였다.
대형 언어 모델도 AI로 생성한 문장을 검출하는 데 사용할 수 있다. 가장 좋은 방법은 사람이 작성한 문장과 기계가 생성한 문장을 놓고 모델을 다시 학습시키는 것이다. 캐나다 브리티시컬럼비아 대학교(University of British Columbia)에서 자연어 처리 및 머신러닝 분야의 석좌 연구원으로 검출 수단을 연구하는 무함마드 압둘-매 기드(Muhammad Abdul-Mageed)는 이러한 재학습 과정을 통해 AI 모델이 두 종류의 문장의 차이를 배울 수 있다고 말했다.
한편, 오픈AI의 객원 연구원이자 텍사스 대학교(University of Texas)의 컴퓨터 공학자 스콧 애런슨(Scott Aaronson)은 GPT-3와 같은 언어 모델로 생성한 긴 문장에 삽입할 수 있는 워터마크를 개발하고 있다. 그는 자신의 블로그를 통해 “단어의 선택에 눈에 띄지 않는 비밀 신호가 있고 이를 통해 문장이 GPT로 생성되었다는 것을 증명할 수 있다”라고 말했다.
오픈AI의 대변인도 내부에서 워터마크 개발을 진행하고 있음을 확인해 주었다. 그리고 회사 정책을 통해 이용자들에게 “누구도 놓치거나 오해할 수 없는 방식”으로 AI로 생성된 문장임을 명확하게 표기할 것을 명시하고 있다고 말했다.
그러나 이러한 기술적 해결책에는 문제가 따른다. 이 해결책들은 GPT-2 또는 더 이전 모델들을 대상으로 하기 때문에 최신 세대의 AI 언어 모델에는 대응하기 어렵다. 이러한 검출 도구들 대부분은 분석 가능한 문장이 많을 때 가장 잘 작동한다. 그러나 챗봇이나 이메일 작성 도구와 같은 실제 사용 사례에서는 효율성이 떨어진다. 대화가 짧고 분석할 데이터가 적기 때문이다. 압둘-매기드는 검출에 대형 언어 모델을 사용하기 위해서는 강력한 성능의 컴퓨터는 물론 기술 회사에서 허용하지 않는 AI 모델 자체에 대한 접근이 필요하다고 말했다.
솔레이먼도 대형 언어 모델이 더 크고 강력해질수록 사람이 작성한 문장과 그렇지 않은 문장을 검출하는 AI 모델의 개발이 더 어려워진다고 말했다.
이어서 그녀는 “챗GPT가 매우 인상적인 결과를 보여주고 있어서 걱정된다. 검출 모델이 따라갈 수 없을 정도다. 이 상태로는 계속 따라잡기 놀이를 하게 될 것이다”라고 말했다.
사람의 눈을 훈련하는 방법
솔레이먼은 AI가 작성한 문장을 검출할 수 있는 확실한 단서는 없다고 말했다. “안전성 필터가 AI의 편향을 완화하는 해결책이 되지 못하듯이, 인공적으로 생성된 문장을 검출하는 AI 모델도 해결책이 되지 않을 것이다”라고 설명했다.
이 문제를 해결하기 위해서는 사람이 AI와 상호 작용할 때 사용되는 기술을 개선하고 투명성을 더 높여야 한다. 그리고 사람들이 AI로 작성한 문장의 특징을 찾아내는 방법을 배울 필요가 있다.
이폴리토는 “크롬(Chrome)이나 현재 사용 중인 웹 브라우저에 웹 페이지의 문장이 기계로 생성되었는지 확인하는 플러그인이 있으면 좋을 것이다”라고 말했다.
사실 관련된 시스템이 존재한다. 하버드 대학교(Harvard)과 IBM의 연구원들은 컴퓨터 프로그램으로 생성되었을 가능성이 있는 구절들을 표시해 주는 ‘거대 언어 모델 테스트룸(Giant Language Model Test Room, GLTR)’을 개발했다.
그러나 AI는 이미 우리를 속이고 있다. 코넬 대학교(Cornell University)의 연구원들은 사람들이 GPT-2로 생성한 가짜 뉴스 기사들 중 약 66%는 믿을 만하다고 생각하는 것을 알아냈다.
또 다른 연구에서는 별도로 훈련을 받지 않은 사람들이라도 무작위 비율로 GPT-3로 생성한 문장을 찾아낼 수 있음을 발견했다.
이플리토는 사람들이 AI로 생성한 문장을 더 잘 발견할 수 있도록 훈련할 수 있다고 말했다. 그녀는 컴퓨터로 많은 문장을 보여주고 그중 사람이 작성하지 않은 문장을 찾아내는 게임을 개발했다. 그리고 게임에 참여한 사람들이 점점 나은 결과를 보이는 것을 알아냈다.
이플리토는 “수많은 문장을 보면서 뜻이 안 통하는 내용을 찾는다면 더 나은 결과를 낼 수 있다”라고 말했다. 예를 들어, 커피 한 잔을 만드는 데 60분이 걸린다고 하는 것처럼 타당하지 않은 진술을 찾아내는 것이다.
GPT-3는 챗GPT가 개발되기 이전의 모델로서 2020년에 출시되었으므로 많이 오래된 것은 아니다. 오픈AI는 챗GPT가 데모용 버전이라고 말하지만 비슷한 형태의 강력한 모델을 개발하여 고객 서비스나 의료 분야에 사용할 수 있는 챗봇 같은 제품으로 출시하는 것은 그저 시간문제로 보인다. 여기에 문제의 쟁점이 있다. 이 분야의 빠른 발전 속도는 AI로 생성한 문장을 찾는 모든 수단이 빠르게 구식이 된다는 것을 의미한다. 마치 군비경쟁을 방불케 하는 이 전쟁에서 우리는 패배하고 있다.
관련 기사

AI가 쓴 글이 인터넷을 오염시키고 있다
AI 언어 모델들이 만든 문장에 유해하고 악의적이거나 거짓된 정보들이 걸러지지 않은 채 그대로 포함되면서 거짓이거나 질이 낮은 정보들이 끊임없이 확산되고 있다.