
노이즈 캔슬링 헤드폰으로 원하는 소리만 골라 들는 시대 열린다?
미래에는 노이즈 캔슬링(noise-canceling) 헤드폰을 이용해서 아기 울음소리나 새가 지저귀는 소리, 알람 소리 등 사용자가 원하는 특정 소리만 선택적으로 들을 수 있게 될지도 모른다.
이를 가능하게 하는 시맨틱 히어링(semantic hearing) 기술을 활용하면 사용자가 일부 소리는 차단하고 다른 소리는 증폭시킬 수 있는 더 스마트한 보청기와 이어폰이 만들어질 수 있을 것이다.
아직 프로토타입 단계에 있는 해당 시스템은 시중에 판매되는 노이즈 캔슬링 헤드폰을 스마트폰 앱에 연결하는 방식으로 작동한다. 소음 제거에 사용되는 헤드폰 내장 마이크의 용도를 변경하여 소음 제거뿐만 아니라 사용자 주변 세계의 소리를 감지하는 데 사용한다. 이렇게 감지한 소리를 스마트폰에서 실행하고 있는 신경망(neural network)에 들려준 다음, 사용자의 선호도에 따라 실시간으로 특정 소리를 증폭시키거나 억제한다. 이 기술은 워싱턴 대학교(University of Washington) 연구진이 개발했으며, 이들은 11월 첫째 주 ACM 사용자 인터페이스 및 기술 심포지엄(ACM Symposium on User Interface Software and Technology, UIST)에서 해당 연구 결과를 발표했다.
연구팀은 온라인 데이터 세트에서 가져온 수천 개의 오디오 샘플과 소음이 있는 다양한 환경에서 수집한 소리를 이용해서 신경망이 천둥소리, 변기 물 내리는 소리, 유리 깨지는 소리 등 20개의 일상적인 소리를 인식하도록 학습시켰다.
그런 9명의 참가자를 대상으로 신경망을 테스트했고, 참가자들은 테스트를 위해 사무실, 공원, 거리 등 여러 장소를 돌아다녔다. 테스트를 통해 연구팀은 이 시스템이 이전에 학습하지 않은 상황에서도 소리를 줄이거나 증폭하는 데 탁월한 성능을 보인다는 사실을 발견했다. 그러나 시스템은 배경 음악, 그중에서도 특히 랩 음악과 사람의 말소리를 구별하는 데 다소 어려움을 겪었다.
인간의 능력 모방
연구자들은 ‘칵테일파티 문제(cocktail party problem)’를 해결하기 위해 오랫동안 노력해 왔다. 이는 인간이 붐비는 공간에서 목소리 하나에 집중할 수 있는 것처럼 컴퓨터도 이런 일을 해낼 수 있게 하려는 것이었다. 일본 교토의 NTT 커뮤니케이션 과학 연구소(NTT Communication Science Laboratories)에서 음성 향상 및 인식에 관해 연구하는 선임 연구과학자 마르크 델크루아(Marc Delcroix)는 이번에 발표된 새로운 방식이 매우 중요한 진전이며 해당 기술의 잠재력을 보여준다고 말했다. 그는 이번 프로젝트에는 참여하지 않았다.
델크루아는 “이번 연구 성과는 이 분야의 발전에 매우 도움이 된다”며 “특히 음성 분리 분야에서 이전에도 비슷한 아이디어가 있었지만, 완전한 실시간 양이(binaural) 타깃 사운드 추출 시스템을 제안한 것은 이들이 처음”이라고 설명했다.
이번 연구에 참여한 워싱턴 대학교의 시암 골라코타(Shyam Gollakota) 조교수는 “오늘날의 노이즈 캔슬링 헤드셋은 노이즈 캔슬링 기능이 켜져 있는 상태에서도 음악을 재생할 수 있는 기능이 있다”며 “우리는 음악을 재생하는 대신에 주변 환경에서 실제로 관심 있는 소리를 머신러닝(machine-learning) 알고리즘을 통해 추출해서 재생하는 것”이라고 설명했다.
골라코타는 보청기는 시끄러운 환경에서 사용이 제한되지만, 이 기술은 그렇지 않기 때문에 청력 손실이 있는 사람에게 도움을 줄 잠재력이 있다며 기대감을 드러내고 있다. 그는 “이 기술은 청력 강화를 통해 지능형 히어러블(hearable) 장치의 미래를 그려 나갈 특별한 기회를 제공한다”고 말했다.
들을 수 있는 소리와 들을 수 없는 소리를 선택할 수 있는 기능은 의료, 군사, 엔지니어링 전문가와 같이 업무상 집중적인 청취가 필요한 사람이나 청력을 보호하면서도 의사소통을 하고 싶은 공장 또는 건설 현장 근로자에게 도움이 될 수 있다.
세상의 소리 차단
오하이오에 있는 마이애미 대학교(Miami University)의 미디어 및 커뮤니케이션 전공 부교수이자 《침묵: 미디어와 소리의 자기통제(Hush: Media and Sonic Self-Control)》의 저자이기도 한 맥 해굿(Mack Hagood)은 “이러한 유형의 시스템은 좋든 나쁘든 우리를 둘러싼 소리를 어느 정도 통제할 수 있게 해준다”고 설명했다. 그는 이번 프로젝트에 참여하지 않았다
해굿은 “이 기술은 많은 사람들이 바라던 꿈이다. 나는 사람들이 오랫동안 이런 상상을 하는 모습을 목격했다”며 “우리는 어떤 소리가 듣고 싶든 그렇지 않든 기본적으로 선택을 해야 할 것이며, 이런 식으로 경험의 폭을 줄이는 것이 실제로 유익할 때도 있을 것이다. 이러한 선택과 집중은 우리가 더 나은 의사소통을 위해 해야 하는 일이기도 하다”고 말했다.
그러나 해굿은 “우리가 통제하고 선택할 때마다 뜻밖의 즐거움이나 행복한 우연은 뒤로 밀려날 것”이라고 지적했다. 그는 “이 기술을 사용하면 듣고 싶은 말과 듣고 싶지 않은 말을 미리 결정할 것이다. 그렇게 되면 실제로 우리가 들으면서 즐거움을 느끼게 될지도 모르는 소리까지도 미리 차단하게 되면서 그런 소리에 대해 알 기회가 사라질 것”이라고 우려했다.