The internet is excluding Asian-Americans who don’t speak English

인터넷, 영어 못하는 아시아인을 배제하다

언어 격차에 시달리는 미국 내 수백만 명의 사람들에게 인터넷은 장벽을 없애기보다는 오히려 만들고 있다.

제니퍼 시옹(Jennifer Xiong)은 캘리포니아에 거주하는 몽(Hmong)족 사람들이 미국 대선에 투표하는 것을 도와주며 여름을 보냈다. 몽족은 중국, 베트남, 라오스, 태국의 산지에 거주하지만 자신들의 나라가 없는 민족이다. 시옹은 프레즈노의 몽족혁신정치 HIP(Hmong Innovating Politics)에서 자원봉사를 했다. 미국에는 약 30만 명의 몽족이 있다. 그는 몽족 라디오와 TV 채널을 운영하는데 필요한 폰뱅킹과 광고 작업을 몇 시간 동안 했고, 이는 고무적인 작업이었다. 그는 “이 일은 완전히 새로운 것이었다.”라며, “젊고 진보적인 일, 특히 여성이 이런 일을 하는 것은 우리 지역사회에서 매우 드문 일이다. 나는 이것이 엄청난 위업이 되리라는 것을 알았다”라고 말한다. 확실히 그랬다. 2020년 총선에서 아시아계 미국인의 투표율은 이례적이었고, 몽족 시민의 투표율은 그들이 기억할 수 있는 한 가장 높았다는 관측이 나온다.

하지만 시옹은 또한 믿을 수 없을 정도로 실망스러웠다고 전한다.

몽족은 베트남 전쟁 중 미국을 지원하는데 고용된 후 많은 사람이 태평양을 건너 이주하도록 장려되는 등 미국과 오랜 유대관계를 맺고 있지만, 그들은 종종 주류 정치 담론에서 소외된다. 한 가지 예로, 프레즈노 카운티 웹 사이트의 유권자 등록을 위한 정부 랜딩 페이지에 전체 페이지를 몽족어로 번역할 수 있는 옵션이 있지만, 정보가 대부분 잘못 번역되어 있다고 시옹은 말한다.

오역은 첫 문구부터 시작된다. 그는 ‘안녕하세요’ 또는 ‘환영합니다’를 뜻하는 몽족어 대신 “’당신의 명예’ 또는 ‘왕비’ 또는 ‘왕’과 같은 단어가 나온다.”라고 말한다.

그렇게 사소한 일에서부터 잘못된 것을 보면 실망스럽고 당혹스러웠다. 그는 “아마 구글 번역기로 번역했을 텐데, 편집과 검토조차 하지 않았다”라고 말한다.

시옹은 이런 종류의 부주의는 온라인상에서 흔히 볼 수 있으며, 그와 몽족 지역사회의 사람들이 정치에서 배제되었다고 느낄 수 있는 한 가지 이유라고 말한다.

디지털 세상이 그들을 배제한다는 느낌이 든 것은 그뿐만이 아니다. 웹 자체는 영어를 우선으로 하는 아키텍처를 기반으로 구축되었으며, 미국에서 공개 담론을 진행하는 대부분의 대형 소셜 미디어 플랫폼도 영어를 우선시한다.

그리고 기술이 미국의 시민 공간을 대신하는 공간을 만들어 내면서, 영어의 우위가 확대되었다. 아시아계 미국인들에게 디지털로의 이동은 투표 등록에서부터 지역 뉴스에 이르기까지 모든 민주제도에 대한 접근이 언어 장벽으로 방해받고 있음을 의미한다.

의료 서비스에서도 문제다. 팬데믹 동안, 흑인, 히스패닉계, 원주민 환자들이 백인 환자들보다 2배에서 3배 더 입원하거나 사망할 가능성이 높았다. 이러한 장벽은 또 다른 부담을 추가한다. 보스턴의 브리검 여성병원은 영어를 사용하지 않는 환자들이 영어를 사용하는 사람들보다 코로나로 사망할 확률이 35% 더 높다는 것을 발견했다. 번역 문제만이 유일한 쟁점이 아니다. 시옹은 몽족 사용자들이 백신을 예약하려고 할 때, 이 지역사회의 많은 사람이 서양 점성술에 익숙하지 않은데도 불구하고 보안 질문으로 별자리를 질문 받았다고 말한다.

아시아계 미국인들은 미국에서 언어적으로 가장 다양한 민족이기 때문에, 보통 때 같으면 이러한 어려움을 극복하는 것은 굉장히 복잡할 것이다. 그러나 아시아계 미국인들에 대한 실제 공격과 온라인 공격이 극적으로 증가한 지 1년이 지났고, 상황은 다른 방식으로 급박해졌다.

“그들은 잘못된 정보를 바로잡지 않습니다”

아시아인과 태평양 섬 주민들의 시민 참여를 촉진하는 비영리 단체 APIA보트(APIAVote)의 크리스틴 첸(Christine Chen) 상임이사는 미국 내 아시아인들에게 정치 생활은 항상 ‘배타적’이었지만, “디지털 공간에서 훨씬 더 어렵다. 격리되기 훨씬 더 쉽다”고 말한다.

페이스북, 트위터, 유튜브 같은 대형 플랫폼은 위챗, 왓츠앱, 라인 같은 메시지 앱처럼 아시아계 미국인들에게 인기가 높다. 사람들이 어떤 커뮤니케이션 채널을 자주 사용하는지는 그들의 민족성에 달려 있다. 선거 운동 기간에 첸은 최대한의 효과를 얻기 위해 그러한 채널들을 연결하는 자원봉사 네트워크를 구축하는 데 초점을 맞췄다. 당시 위챗 그룹과 영어 이외의 언어에서는 콘텐츠 관리의 효과가 떨어지는 페이스북과 트위터에서는 아시아계 미국인을 겨냥한 허위 정보가 난무했다.

APIA보트 자원봉사자들은 다양한 플랫폼에 있는 여러 그룹에 가입하여 회원들에게 투표하도록 독려하는 동시에 잘못된 정보가 있는지 감시한다. 예를 들어, 베트남계 미국인들은 공산주의에 대한 두려움을 전제로 조 바이든이 사회주의자라는 주장의 표적이 되었으며, 이는 쿠바계 미국인들에게 강요된 정치적 메시지와 비슷하다는 점을 발견했다.

첸은 페이스북, 트위터 등의 콘텐츠 관리 정책이 명백한 영어 허위 정보 중 일부를 걸러내는 데는 성공했지만, 해당 시스템은 종종 다른 언어로 된 콘텐츠를 거르지 못한다고 말한다. 그 일은 그의 팀과 같은 자원봉사자들이 해야 했고, 그들은 잘못된 정보를 찾아 제거하고 확산을 최소화하도록 교육받았다. “특정 단어들을 찾는 이러한 메커니즘이 다른 언어로 표현된 허위정보나 오보를 반드시 잡아내지 않는다”라고 그는 말한다.

구글의 번역 서비스와 트랜스레이터트론(Translatotron), 실시간 번역 헤드폰 등의 기술은 인공지능을 활용해 번역한다. 그러나 시옹은 이러한 도구들이 문맥이 엄청나게 중요하고 매우 복잡한 언어인 몽족어에 부적절하다고 생각한다. “구글과 같은 첨단 시스템에 매우 자족하고 의존하게 되었다”며, “그들은 ‘이용할 수 있는 언어’라고 했지만, 읽어보니 완전히 다른 게 쓰여 있다”라고 그는 말한다.

(구글의 한 대변인은 소수가 사용하는 언어들이 “번역하기 더 어렵다”고 인정하면서도, 구글은 머신러닝과 지역사회의 피드백을 이용해 “특히 자원이 부족한 언어 번역에 도움이 되는 연구에 투자했다”고 말했다.)

더 깊은 측면에서

온라인 언어에서 발생하는 어려움은 미국을 넘어 말 그대로 근본적인 코드 수준으로 이어진다. 스리랑카 싱크탱크 LIRNE아시아(LIRNEasia)의 연구원이자 데이터 과학자인 유단자야 위제라트네(Yudhanjaya Wijeratne)는 2018년 소셜 미디어에서 이슬람교도들에 대한 폭력을 조장하는 봇 네트워크를 추적하기 시작했다. 그해 2월과 3월, 신할라 불교도들의 잇따른 폭동이 암파라와 칸디의 이슬람교도와 모스크를 겨냥했다. 그의 팀은 봇의 ‘추적 논리’를 문서화하고, 수십만 개의 신할라 소셜 미디어 게시물을 분류했으며, 그 결과를 트위터와 페이스북에 게시했다. 그는 “봇 네트워크는 모든 종류의 좋은 선의의 말을 하는데, 이는 기본적으로 미리 준비된 문서에서 나온다”라고 말한다. (트위터는 성명에서 “정치적 스펙트럼에 대한 배경, 이념, 위치와 관계없이 서비스 내 모든 사람에게 공평하게 우리의 규칙을 적용”하기 위해 사람이 검토하고 자동화된 시스템을 사용한다고 밝혔다.)

페이스북 대변인은 MIT 테크놀로지 리뷰가 접촉하자 2020년 5월 공개된 스리랑카 폭력 사태에서 플랫폼의 역할에 대한 독자적 인권평가를 의뢰했으며, 신할라와 타밀어권 콘텐츠 관리자 수십 명을 고용하는 등 이번 공격을 계기로 변화를 가져왔다고 밝혔다. “잠재적으로 위반될 수 있는 내용을 더욱 빠르고 효과적으로 식별할 수 있도록 신할라어에 사전 예방적인 혐오발언 탐지 기술을 활용했다”라고 말했다.

그럼에도 봇의 활동이 계속되자, 위제라트네는 트위터나 페이스북의 조치에 회의적이 되었다. 그는 기업들이 사용하고 있는 코드 라이브러리와 소프트웨어를 살펴보기로 했고, 대부분의 비영어 언어에서 혐오 발언을 감시하는 메커니즘이 아직 구축되지 않았다는 것을 발견했다.

“사실, 우리와 같은 많은 언어에 대한 연구가 아직 많이 이루어지지 않았다”라고 위제라트네는 말한다. 그는 “2년 동안 핵심 말뭉치와 핵심 툴을 구축한 후 잠재적으로 텍스트 분석을 할 수 있는 수준까지 작업하기 위해 신할라어 2,800만 단어를 검토했다”라며 “영어를 대상으로 했다면 파이썬 코드 세 줄로 할 수 있는 일”이라고 말했다.

위제라트네는 2019년 4월 스리랑카 수도 콜롬보에서 자살폭탄테러가 교회를 목표로 한 뒤, 신할라어와 타밀어로 혐오 발언과 오보를 분석하는 툴을 만들었다. 와칭독(Watchdog)으로 명명된 이 시스템은 뉴스를 집계하고 가짜 뉴스에 경고를 붙이는 무료 모바일 애플리케이션이다. 앱으로 생성된 경고는 사실 확인에 대한 교육을 받은 자원봉사자들이 만든다.

위제라트네는 이 작업이 번역을 훨씬 넘어선 일임을 강조한다.

그는 “연구 중에 특히 자연어 처리에서 자주 인용되는 당연하게 여기는 많은 알고리즘들이 영어에서 훌륭한 결과를 보여준다”라며, “하지만 동일한 많은 알고리즘이 서게르만어나 로맨스어에 뿌리를 둔 언어처럼 서로 멀지 않은 곳에서 사용하는 언어라도 완전히 다른 결과를 반환할 수 있다”라고 말한다.

자연어 처리는 자동화된 콘텐츠 관리 시스템의 기본이다. 위제라트네는 2019년에 다른 언어에서 정확성 불일치를 조사한 논문을 발표했다. 그는 데이터 세트와 웹 페이지처럼 컴퓨터를 사용한 언어 자원이 많을수록 알고리즘이 더 잘 작동할 수 있다고 주장한다. 가난한 나라나 지역사회의 언어들은 불리하다.

그는 “영어로 엠파이어 스테이트 빌딩을 짓는다면, 설계도와 재료가 있다”라며 “모든 것은 손에 있고, 조립만 하면 된다. 다른 모든 언어에는 설계도가 없다”라고 말한다.

“콘크리트를 어디에 부어야 할지 모르는 것이다. 강철이나 노동자도 없다. 한 번에 벽돌을 하나씩 옮기며 그곳에 앉아서 여러분의 손자, 손녀가 이 프로젝트를 완성할 수 있기를 바랄 것이다.”

뿌리 깊은 문제들

이러한 설계도를 제공하려는 움직임은 언어 정의(language justice)라고 알려져 있으며, 새로운 것은 아니다. 미국변호사협회는 언어 정의를 “사람들이 가장 분명하고 강하게 선호하고 느끼는 언어로 소통하고 이해하고 이해받을 수 있는 권리”를 보호하는 ‘프레임워크’라고 설명한다.

언어 정의의 길은 열악하다. 기술 회사와 정부 서비스 제공업체는 이를 훨씬 더 높은 우선순위로 설정하고 이를 실현하기 위해 더 많은 자원을 투자해야 한다. 위제라트네는 특히 미국에서 아시아 사람들을 대상으로 한 인종차별, 혐오 발언, 그리고 배제는 인터넷보다 훨씬 이전에 존재했다고 지적한다. 언어 정의가 실현될 수 있다고 해도, 이러한 뿌리 깊은 문제들을 해결하지는 못할 것이다.

그러나 시옹에게 언어 정의는 그가 몽족 지역사회에 필수적이라고 생각하는 중요한 목표이다.

선거 후, 시옹은 캘리포니아의 몽족 지역사회와 인구 조사국, 카운티 서기, 백신 등록과 같은 공공 서비스를 연결하는 새로운 역할을 맡게 되었다. 그의 주요 목표는 몽족 라디오나 영어로 진행하는 페이스북 라이브에서 “그들이 있는 곳에서 지역사회를 만나는 것”이며, 몽족 사람들의 시각을 더 널리 알리는 것이다. 하지만 그는 매일 사람들의 대화를 차단하고 자원에 대한 액세스를 차단하는 기술의 불균형에 직면해야 한다.

그는 평등은 “통역과 번역이 당연히 이루어지는 세상”을 의미한다며 “우리는 충분한 예산이 있는지 묻지 않고, 그것이 중요한지 또는 가치 있는지에 대해 의문을 품지 않는다. 입법 과정이나 공론장에서의 논의에서 평등에 가장 높은 우선 순위를 두기 때문이다”라고 말한다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.