
간디 전집부터 희귀 도서까지…인도에서 부는 ‘디지털화’ 바람
8월의 화창한 어느 날 인도의 벵갈루루에 있는 간디 바반 기념관(Gandhi Bhavan Museum) 2층 방에서 직원들이 5대의 대형 탁상용 스캐너 앞에 앉아 책을 늘어놓고 발로 페달을 밟아가며 페이지를 넘기고 있다. 이 기념관 건물에는 인도 남서부 카르나타카주에서 가장 큰 간디 철학 참고 도서관이 자리하고 있다.
직원들은 앞으로 1년 동안 마하트마 간디 전집, 간디의 자서전인 『나의 진리실험 이야기(Experiments with Truth)』의 칸나다어 번역판, 그리고 기타 희귀 자료 등 다양한 종류의 서적을 디지털화하고 그들에 대한 메타데이터(metadata)를 기록할 예정이다. 메타데이터란 대량의 정보 가운데에서 찾고 있는 정보를 효율적으로 찾아내서 이용하기 위해 일정한 규칙에 따라 콘텐츠에 대하여 부여되는 데이터를 말한다.
이것은 이런 책이나 자료를 누구나 쉽게 이용할 수 있는 온라인 디지털 도서관을 구축해 유지하고 있는 비영리 단체 인터넷 아카이브(Internet Archive)의 ‘지식 봉사자(Servants of Knowledge, 이하 SoK)’ 컬렉션에 추가하기 전에 이루어지는 작업이다.
이번 디지털화 작업은 찾기 어려운 자료를 보존하기 위해 약 4년 전 자원봉사자들의 노력으로 설립된 SoK을 위해 가장 최근에 추진되고 있는 작업이다. 현재 이 작업에는 인도 전역의 다양한 도서관 및 아카이브도 참여하고 있다.

현재 SoK 컬렉션은 15개 이상의 언어로 된, 인도에서 제작됐거나 인도에 관한 책, 연설문, 잡지, 신문, 종려나무 잎 원고, 오디오, 영화를 검색할 수 있는 도서관으로 변하고 있다. 이것은 과학, 문학, 법률, 정치, 역사, 종교, 음악, 민속 등 다양한 주제에 대한 공용(公用) 및 저작권이 없는 저작물을 가지고 있는 진정한 개방형 디지털 도서관이다. 모든 콘텐츠는 오픈 액세스(open access·누구나 장벽없이 학술정보를 인터넷에 접속해 읽고 쓸 수 있는 것)와 검색 및 다운로드가 가능하고, 텍스트 음성 변환 도구를 사용해 시각 장애인도 자유롭게 이용할 수 있다. 자원봉사자와 직원들은 벵갈루루 전역의 다양한 장소에서 매달 약 140만 페이지씩 스캔해 컬렉션을 계속 확장하고 있으며, 추가 협업도 확대해 나가고 있는 중이다.
Sok 컬렉션은 인도의 부족한 도서관 자원을 보완하기 위해 기획됐다. 인도 정부가 인도 내 공공 도서관 확충 운동을 촉진하기 위해 설립한 단체인 라자람모훈로이 도서관재단(Raja Rammohun Roy Library Foundation)에 따르면 인구가 14억 명이 넘는 인도에는 약 5만 개의 공공 도서관이 있다. 하지만 재단이 2018년 발표한 보고서에 따르면 각 주의 중앙 도서관과 지역 도서관에는 평균적으로 각각 7만 7,000권과 2만 4,000권의 도서가 비치되어 있는 데 반해 마을과 부족 도서관은 불과 몇천 권의 책만 확보해 놓고 있을 뿐이다. 또 일부 도서관은 화재로 인해 장서를 잃었고, 많은 책들이 방치돼 파손됐고, 사라진 책들도 많다.
게다가 대부분의 공공 도서관은 일반인이 자유롭게 이용할 수도 없다. 지식재산권법을 연구하는 국립 법학 대학인 NLSIU(National Law School of India University) 부교수인 아룰 조지 스카리아(Arul George Scaria)는 “많은 공공 도서관을 이용하기가 매우 어려워서 어느 시점이 지나면 사람들은 도서관에 가는 것을 포기하게 된다”면서 “공공 지원 교육 기관의 사정도 마찬가지”라고 말했다. 그러면서 이러한 도서관을 더 자유롭게 이용할 수 있게 만드는 가장 좋은 방법 중 하나는 ‘디지털화’라고 강조했다.
기술자인 옴시바프라카시(Omshivaprakash) H L은 인도 남서부 언어인 칸나다어로 위키백과 기사를 작성하기 위해 참고 자료가 필요했을 때 이러한 자료가 심각하게 부족하다는 것을 느꼈다. 2019년경에 그는 미국 자선단체인 퍼블릭 리소스(Public Resource)를 운영하는 칼 말라무드(Carl Malamud)가 인도 자치에 관해 간디가 쓴 힌드 스와라지(Hind Swaraj) 컬렉션 같은 책과 인도 정부 자료를 공용으로 아카이빙하고 있다는 소식을 들었다. 옴시바프라카시는 “칼이 중고 서점에서 이런 책을 많이 사서 미국으로 가져가 디지털화했다는 사실도 알게 됐다”고 말했다.
퍼블릭 리소스는 벵갈루루에 있는 인도 과학 아카데미(Indian Academy of Sciences)와 협력해 인터넷 아카이브에서 제공하는 스캐너를 사용해 책을 디지털화했었지만 이제 그런 활동이 점점 시들해지고 있던 참이었다. 이때 옴시바프라카시는 커뮤니티 회원들의 도움을 구했다. 이제 자원봉사자들은 주말 동안 옴시바프라카시가 가지고 있던 책과 말라무드가 구입한 책을 스캔하기 시작했다. 옴시바프라카시는 “칼은 커뮤니티 협업에 대한 아이디어, 우리에게 필요한 현지 언어 기술에 대한 아이디어, 우리가 만들고자 하는 영향력의 종류를 정말 잘 이해하고 있었다”고 말했다.
이 스캐너는 V자형 크래들을 사용해 책을 고정하고, 두 대의 DSLR 카메라로 고해상도로 페이지를 캡처한다. 이것은 인터넷 아카이브의 스캐너를 기반으로 하지만 옴시바프라카시가 재설계해 인도에서 저렴한 비용으로 제조했다. 작업자마다 한 시간에 약 800페이지씩 스캔할 수 있다.
스캔한 다음이 더 중요한 작업이다. 이제 자원봉사자들은 정확한 메타데이터를 적용해 스캔한 결과물을 인터넷 아카이브에서 검색할 수 있게 만들어야 한다. 이어 다양한 인도 언어 스크립트에서 더 잘 작동하도록 미세 조정된 광학 문자 인식기가 텍스트를 음성으로 변환해주는 프로그램을 이용해 텍스트를 검색하고 텍스트에 접근할 수 있게 만든다.
퍼블릭 리소스가 SoK 프로젝트에 자금을 지원하고, 옴시바프라카시가 직원과 자원봉사자의 도움을 받아 운영을 총괄한한다. 소셜 미디어와 입소문을 통해 이 작업을 돕겠다는 사람들이 모여들고 있다. 예를 들어, 커뮤니티 회원이자 칸나다어 교사인 차야 아차랴(Chaya Acharya)는 과학과 사회 문제에 관한 기사와 풍자 에세이를 써온 저명한 저널리스트이자 작가인 할아버지 파벰 아차랴(Pavem Acharya)의 글이 실린 신문 스크랩을 가지고 옴시바프라카시를 찾아왔다. 뜻밖에도 그녀는 기존의 SoK 컬렉션에서 할아버지가 쓴 더 많은 기사를 발견했다. 그녀는 “그냥 할아버지의 이름을 검색해 봤더니 아카이브에서 더 많은 기사를 찾아볼 수 있었다”고 말했다.
그녀는 할아버지가 1952년부터 1975년 초까지 편집했던 저명한 칸나다어 월간지 <카스투리(Kasturi)>의 사본을 수집하기 시작했고, 디지털화를 위해 이것을 옴시바프라카시에게 기증했다. 잡지의 오래된 호에는 칸나다어 최초의 현대 소설로 여겨지는 굴라바디 벤카타 라오(Gulavadi Venkata Rao)가 쓴 『인디라바이(Indirabai)』, 미국 소설가 에드거 앨런 포의 유명 단편소설 『황금 벌레(The Gold-Bug)』 칸나다어 번역본 등 인기 칸나다어 작가들의 희귀한 글과 번역본이 수록되어 있다.
말라무드는 이 모든 것이 ‘상향식·풀뿌리 인터넷 공공 도서관에 대한 비전이라고 생각한다. 그는 “여러 사람이 서로를 가르치는 식”이라며 “우리는 계속 스캔해서 사람들이 이러한 자료를 이용할 수 있게 하고 싶을 뿐이지 이게 무슨 거창한 목표가 있는 건 아니다”라고 말했다.
그는 이어 “우리는 생계를 위해 이 일을 한다”면서 “지난 수년 동안 이 일을 해왔고 앞으로도 계속할 것”이라고 덧붙였다.
이 글을 쓴 Ananya는 인도 벵갈루루에서 활동하는 프리랜서 과학·기술 저널리스트이다.