Machine learning improves Arabic speech transcription capabilities
아랍어로 알아본 머신러닝 이해력의 한계와 가능성
음성인식 기술이 인간과 기계 사이에 가교 역할을 하고 있다. 그러나 전 세계 모든 인구가 음성인식 기술을 사용할 수 있는 것은 아니다. 특히 지역마다 다양한 방언을 갖고 있는 아랍어의 경우 아직 음성인식 기술이 제대로 적용되지 못하고 있는 실정이다. 이 문제를 어떻게 해결할 수 있을까?
음성 기술과 자연어처리 기술이 발전하면서 우리는 언젠가 가장 좋은 샐러드 재료가 무엇인지 가상 어시스턴트에게 질문할 수 있는 날이 올 것이라는 희망을 품고 있다. 이미 지금도 음성 명령으로 가정에서 사용하는 기기들을 실행시킬 수도 있고, 음악을 틀어 달라고 할 수도 있다. 이러한 음성인식 기능은 이미 많은 기기에 포함되어 있다.
그러나 모로코어, 알제리어, 이집트어, 수단어 등 아랍어의 다양한 방언을 사용하는 사람들은 이러한 음성인식 기술의 혜택을 제대로 누릴 수 없다. 아랍어 방언들은 지역마다 세분화되어 발전했고, 어떤 방언들은 이미 서로 이해할 수 없을 정도로 달라져 있다. 아랍어뿐만 아니라 핀란드어, 몽골어, 나바호어 등 형태학적으로 매우 복잡한 언어를 모국어로 하는 사람들은 이러한 기술 발전에서 자신들이 소외되고 있다는 느낌을 받을지도 모른다.
아흐메드 알리(Ahmed Ali)는 이들 언어가 가진 복잡한 구조에 흥미를 느끼고 해결책을 찾아보기 시작했다. 그는 카타르 재단(Qatar Foundation)의 하마드 빈 칼리파 대학 소속 ‘카타르 컴퓨팅 연구소(Qatar Computing Research Institute, QCRI)’의 아랍어 기술(Arabic Language Technologies) 그룹 수석 엔지니어이며, ‘아랍어 음성 과학과 음성 기술의 이점을 위해 존재하는 커뮤니티’ 아라빅스피치(ArabicSpeech)의 설립자이기도 하다.
