We tested AI interview tools. Here’s what we found.

AI 면접 툴의 테스트 결과는?

면접에서 독일어만 사용한 지원자가 영어 구사력 부문에서 높은 점수를 받은 경우도 있다.

코로나19 대유행이 시작된 지 1년이 넘은 지금, 수백만 명의 미국인이 일자리를 찾아 나섰다. AI 면접 소프트웨어 업체는 이런 소프트웨어가 많은 지원자 중에서 기업이 원하는 인재를 고르는 데 도움이 된다고 주장한다. 이들 업체는 코로나19 대유행 기간에 매출이 급증했다.

그렇지만 AI 면접 소프트웨어에 대한 수요 증가는 기술의 정확성과 신뢰도에 관한 의문도 함께 불러왔다. 본지 팟캐스트 채널 ‘In Machines We Trust’ 최신 에피소드에서는 AI 면접 소프트웨어 기업의 선두주자 마이인터뷰(MyInterview)와 큐리어스씽(Curious Thing)을 대상으로 실험을 진행했다. 실험 결과, 예측 결과와 매칭 점수에서 두 소프트웨어가 차이를 보인 것이 밝혀지면서 이들 소프트웨어의 알고리즘이 정확히 무엇을 평가하는지에 대한 우려의 목소리가 나왔다.

지원자 파악하기

마이인터뷰 소프트웨어는 Big5 성격 검사(Big Five Personality Test)에서 고려되는 성격을 측정한다. 이 성격 검사는 채용 절차에 많이 사용되는 심리 검사 도구로, 개방성(openness), 성실성(conscientiousness), 외향성(extroversion), 친화성(agreeableness), 정서적 안정성(emotional stability을 평가한다. 큐리어스씽 소프트웨어도 성격 관련 특징을 측정하지만, 다섯 개의 요인 대신 겸손함(humility), 회복탄력성(resilience) 등을 평가한다.

이 두 소프트웨어의 알고리즘은 지원자의 성격 특징을 파악하기 위해 지원자의 반응을 분석한다. 이에 더해 마이인터뷰는 채용 담당자가 특정 포지션에 필요한 이상적인 특징으로 꼽은 특징과 지원자가 일치하는 정도를 점수로 나타낸다.

우리는 실험을 진행하기 위해 우선 소프트웨어부터 설치했다. 관리직/연구원을 구한다는 가짜 공고를 마이인터뷰와 큐리어스씽 두 곳에 모두 올렸다. 그리고 소프트웨어에서 우리가 원하는 이상적 지원자의 성격적 특징을 선택했다.

마이인터뷰에서는 꼼꼼함 등의 특징을 선택하고, 중요도에 따라 특징에 순위를 매겼다. 지원자가 질문에 답변하는 장면을 녹화할 때 화면에 표시될 질문도 골랐다. 큐리어스씽에서는 겸손함, 적응력, 회복탄력성 등의 특징을 체크했다.

우리 중 힐케가 해당 포지션에 지원하고, 마이인터뷰와 큐리어스씽 모두에서 인터뷰까지 마쳤다.

A report generated by an AI program shows a personality summary and analysis indicating the candidate is innovative and social.
힐케가 마이인터뷰 면접에서 영어 대신 독일어를 사용하고 받은 결과.

힐케는 큐리어스씽과 전화 면접을 진행했다. 처음에는 평범하게 면접을 보고, 영어 구사력 부문에서 9점 만점에 8.5점을 받았다. 두 번째에는 AI 면접관이 하는 같은 질문에 위키피디아에서 계량 심리학(psychometrics)을 검색한 결과를 독일어로 읽었다.

그런데도 힐케는 영어 구사력에서 6점을 받았다. 그래서 힐케가 면접을 한 번 더 진행했지만 점수에는 변화가 없었다.

A screenshot of a software dashboard shows a 6/9 score for English proficiency.
큐리어스씽에서 모든 질문에 독일어로 답하고 받은 영어 구사력 점수.

마이인터뷰에서도 같은 실험을 진행했다. 질문이 주어지면 힐케가 위키피디아의 계량 심리학 검색 결과를 독일어로 읽었다. 마이인터뷰 알고리즘은 성격 검사 결과 외에, 힐케의 포지션 일치도가 73%라는 것도 알려주었다. 73%는 전체 지원자 중 상위 50%에 속하는 결과다.

마이인터뷰는 고객사 채용 담당자에게 인터뷰 원고를 제공한다. 마이인터뷰로부터 전달받은 원고를 보고 독일어 단어가 영어 단어로 바뀐 것을 알 수 있었다. 그런데 단어만 바뀌었을 뿐, 내용은 전혀 말이 안 되는 문장이었다. 원고에 제일 처음 나오는 몇 줄은 질문에 대한 답변으로 다음과 같다.

“So humidity is desk a beat-up. Sociology, does it iron? Mined material nematode adapt. Secure location, mesons the first half gamma their Fortunes in for IMD and fact long on for pass along to Eurasia and Z this particular location mesons.”

매칭 오류

마이인터뷰와 협업하는 산업조직 심리학자 클레이튼 도넬리(Clayton Donnelly)는 알고리즘이 힐케의 답변을 토대로 평가하지 않고, 목소리에서 성격적 특징을 추출했다고 설명한다.

그렇지만 라이스 대학교(Rice University) 산업조직 심리학과 교수 프레드 오스왈드(Fred Oswald)는 억양은 성격적 특징에 대한 신뢰할 만한 지표가 아니라고 지적한다. “채용 절차에서 억양을 고려해서는 안 된다”며 “그것은 공정하지 않고 신뢰할 수 없으며 타당하지도 않다”고 강조한다.

성격적 특징을 파악하기 위해 개방형 질문을 사용하는 방식에도 큰 문제가 있다. 자동화된 채용 절차라고 해도(어쩌면 이 경우에 특히) 마찬가지다. Big5 성격 검사 같은 심리 검사 도구에 객관식 문항이 사용되는 것도 이런 이유에서다.

오스왈드는 “핵심은 이런 개방형 질문으로 성격을 파악하기가 어렵다는 것”이라며 “AI나 알고리즘 그리고 질문 방식을 좀 더 구조화, 표준화할 수 있다. 그렇지만 데이터는 물론 데이터를 설계하는 기술이 아직 그 정도에 이르지는 못한 것 같다”고 부연한다.

큐리어스씽 공동 창립자 겸 최고 기술 책임자 한쑤(Han Xu)에게 이번 실험 결과에 대한 소감을 물었다. 그는 이메일로 다음과 같이 답했다. “우리 시스템에서 독일어로 면접을 본 경우는 이번이 처음입니다. 따라서 이번 경우는 연구를 통해 우리 시스템에 대해 파악할 수 있는 귀중한 데이터포인트입니다.”

편향의 역설

기업이 AI 면접 결과만으로 지원자를 평가하는 경우는 별로 없다. 이런 시스템이 실제로 편향을 줄이고 지원자 선별 능력도 사람보다 뛰어날 가능성이 있다. 문제는 이런 시스템이 독립적인 평가를 받지 않는다는 점이다. 또한 이런 시스템을 만든 기업들은 시스템 작동 방식에 대한 자세한 설명을 피한다. 그래서 지원자와 채용 기업 둘 다 알고리즘이 얼마나 정확한지 그리고 알고리즘이 채용 결정에 어떤 영향을 미치는지 알기가 어렵다.

덴마크의 부동산 관리 플랫폼 프로퍼(Proper)에서 일하는 마크 그레이(Mark Gray)는 전 직장 에어테임(Airtame)에서 인사팀에 근무하던 시절 AI 화상 면접을 사용하기 시작했다. 그레이는 면접관이 지원자와 가벼운 대화를 하면서 주로 인적 편향이 발생하는데, 이로 인한 영향을 줄이기 위해 독일 리토리오(Retorio)라는 기업이 만든 소프트웨어를 도입했다고 한다.

그레이가 리토리오 평가(역시 다섯 가지 요인을 측정한다) 결과만 가지고 지원자 채용 여부를 결정하는 것은 아니다. 그렇지만 리토리오 평가 결과가 지원자 선택에 고려되는 여러 데이터포인트 중 하나인 것은 사실이다. 그레이는 “그것이 적임자를 찾는 만능 열쇠라고 생각하지는 않는다”고 말한다.

통상적으로 그레이는 지원자를 선별하는 전화 면접과 리토리오 활용 면접을 진행한다. 리토리오 면접에는 전화 면접에서 이루어진 평가와 무관하게 대부분의 지원자에게 참여 기회를 준다. 이 단계를 통과하면 지원자는 직무 기술 평가를 거쳐 인사팀과 대면 면접을 진행하게 된다.

“언젠가 때가 되면 리토리오 또는 리토리오 소프트웨어 같은 제품이 모든 기업에서 사용될 것이다. 이런 제품이 [지원자에 대해] 많은 것을 알려주기 때문”이라고 그레이는 주장한다. “AI 분야 전반에 대한 몇몇 의문과 논란이 있지만, 더 중요한 것은 그래서 결국 [지원자의] 성격을 더 잘 파악할 수 있느냐이다.”

그레이는 AI 면접 도구를 둘러싼 비판을 인정한다. 바바리안 공영방송(Bavarian Public Broadcasting)이 지난 2월 실시한 조사에 따르면 리토리오 알고리즘은 면접자가 위치한 배경이나 안경 등 착용한 소품에 따라 평가 결과도 달라진다.

리토리오 공동창립자 겸 전무이사 크리스토프 호헨버거(Christoph Hohenberger)는 이 연구에 어떤 방법이 사용되었는지 자세하게는 모르지만, 리토리오 소프트웨어를 채용 여부를 결정하는 핵심 요인으로 개발한 것은 아니라고 해명한다. “리토리오는 보조적인 도구이다. 실제로 리토리오는 사람 면접관과 동시에 투입된다. 자동 필터 같은 것이 아니다.”

그렇지만, 이런 면접 도구의 시험을 통과해야 하는 구직자로서는 잃을 것이 너무 많다. 결국 대부분의 구직자가 구직 활동을 하는 것은 단지 새로운 도전을 하거나 새로운 환경을 원해서가 아니라, 생계를 위해 반드시 필요하기 때문이다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.