Everything dies, including information

지식의 죽음

우리는 많은 정보를 디지털 형태로 보존할 수 있다. 하지만 그 과정은 전혀 완벽하지 않다.

사람도 기계도 문명도 모든 것은 죽는다. 그렇지만 우리는 죽음으로 도달하는 과정에서 우리가 배운 모든 의미 있는 것들은 살아남게 되리라고 생각하며 약간의 위안을 얻는지도 모른다. 그러나 심지어 지식조차 수명이 있다. 문서는 희미해지고 예술은 소실된다. 모든 책과 수집품은 예상치 못한 파괴에 빠르게 직면할 수 있다.

우리가 기술적으로 지식의 영원한 이용과 접근을 가능하게 할 방법을 고안해야 하는 단계에 도달한 것은 분명하다. 어쨌든 데이터 저장 밀도는 이미 상상을 초월할 정도로 높기 때문이다. 계속 확장하는 인터넷이라는 박물관에서 우리는 제임스 웹 우주 망원경(James Webb Space Telescope) 이미지부터 시작하여 ‘천체의 음악’에 대한 피타고라스 철학을 설명하는 다이어그램을 지나 블루스 기타 솔로 연주에 관한 유튜브(YouTube) 영상까지 쉽게 이동할 수 있다. 여기서 무엇이 더 필요할까?

그러나 전문가들에 따르면 꽤 많은 것이 필요하다. 우선 우리가 영원하다고 생각하는 것이 실제로는 그렇지 않기 때문이다. 디지털 저장 시스템은 불과 3~5년이면 읽을 수 없게 될 수 있다. 사서들과 기록물관리사(archivist)들은 자료를 더 새로운 형식으로 바쁘게 복사하고 있다. 그러나 언제든 상황은 급변할 수 있다. 워싱턴대 정보대학원(Information School)의 부교수 조지프 제인스(Joseph Janes)는 “다양한 기술을 이용하여 정상적인 데이터 저장 수명을 연장하려고 노력하고 있지만 아직은 그저 거대한 흐름을 저지하고 있을 뿐”이라고 말했다.

기록물 관리사들은 전례 없는 정보의 홍수와 씨름하고 있다.. 과거에는 자료가 부족했고 저장 공간은 제한적이었다. 제인스는 “이제는 정반대의 문제가 발생했다”며 “모든 것이 항상 기록되고 있다”고 말했다.

모든 것을 기록한다면 역사의 잘못을 바로잡는 데 도움이 될 수 있다. 수백 년 동안 셀 수 없이 많은 사람들의 지식이나 작업이 그들의 문화, 젠더, 또는 사회경제적 계급으로 인해 발견되거나 중시되거나 보존되지 못했다. 그러나 거대한 몸집을 가진 디지털 세계는 이제 또 다른 문제를 제시한다. 시장조사 기업 IDC가 내놓은 지난해 추정치에 따르면 회사, 정부, 개인이 향후 몇 년 동안 생산하는 데이터의 양은 컴퓨팅 시대가 시작된 이래로 생성된 모든 디지털 데이터의 총량의 두 배에 달할 것으로 보인다.

일부 대학들은 모든 데이터를 저장하기 위한 더 나은 방법을 찾고 있다. 예를 들어 스위스 바젤대학교의 인문학데이터·서비스센터(Data and Service Center for Humanities)는 인문학 연구의 다양한 자료를 단순히 저장할 뿐만 아니라 사람들이 미래에도 해당 자료를 읽고 사용할 수 있도록 하기 위한 ‘크노라(Knora)’라는 소프트웨어 플랫폼을 개발하고 있다. 그러나 그 과정에는 우려가 많다.

버지니아 공과대학교 도서관 데이터 서비스 책임자 안드레아 오기에르(Andrea Ogier)는 “사람들은 모든 일이 잘 이루어지고 있을 것이라고 낙관하지만, 사실 데이터 세트 중에는 아무도 그 유용성을 알지 못해서 손실되는 것들도 있다”고 말했다.

“우리가 모든 것을 저장할 수는 없다. 하지만 그렇다고 우리가 할 수 있는 일을 하지 않을 이유가 되지는 않는다.”

필요한 모든 작업을 수행할 인력과 자본은 전혀 충분하지 않으며 데이터의 형식(format)은 계속해서 변화하며 늘어나고 있다. 제인스는 “어떻게 하면 자료를 보존하기 위한 자원을 가장 잘 할당할 수 있을까? 예산은 부족하기만 하다”며 “어떤 경우에는 자료를 저장만 해놓고 제대로 목록화하거나 정리하지 않아서 나중에 다시 자료를 찾는 것이 거의 불가능할 때도 있다”고 설명했다. 또 어떤 경우에는 기록물관리사들이 결국 새로 수집된 자료들을 외면하기도 한다.

데이터 저장에 사용되는 형식도 영구적이지 않다. 미 항공우주국(NASA)은 아폴로 계획 시절에 수집한 달 먼지에 관한 170여 개의 자료 테이프를 모아두었다. 그러나 연구자들이 2000년대 중반에 해당 테이프들을 들여다 보려고 했을 때 정작 테이프의 재생에 필요한 1960년대의 IBM 729 마크5(IBM 729 Mark 5) 기계를 찾을 수 없었다. 연구팀은 호주컴퓨터박물관(Australian Computer Museum) 창고에 상태가 별로인 재생기가 하나 남아 있다는 것을 알아냈고 자원봉사자들이 기계 수리를 도왔다.

소프트웨어도 ‘유통 기한’이 있다. 오기에르는 오래된 ‘콰트로 프로(Quattro Pro)’ 스프레드시트 파일 하나를 검토하려고 하다가 해당 파일을 읽을 수 있는 즉시 사용 가능한 소프트웨어가 없다는 것만 깨닫고 말았다.

미래에도 계속해서 사용할 수 있는 프로그램을 만들기 위한 시도는 계속 있었다. 2015년에 대대적인 주목을 받은 한 프로젝트는 ‘가상화 실행을 위한 오픈 이미지 라이브러리(Open Library of Images for Virtualized Execution, Olive)’ 아카이브였다. 약자로 ‘올리브’라고 불리는 이 아카이브는 2013년에 나온 생물학 및 생리학 연구 프로그램 ‘체이스트(Chaste) 3.1’이나 1990년에 발매된 컴퓨터 게임 ‘오리건 트레일(Oregon Trail)’의 맥(Mac) 버전 같은 오래된 소프트웨어를 가상 머신(virtual machine) 세트에서 실행시킨다. 카네기멜런대학교의 컴퓨터과학과 교수 마하데프 사티야나라야난(Mahadev Satyanarayanan)은 해당 프로젝트가 아직 활발하게 진행 중이라고 밝혔다. 그러나 그는 올리브의 서비스를 확장하는 데 어려움이 있었다고 덧붙였다. 이제는 사용되지 않는 소프트웨어라고 해도 해당 프로그램을 소유한 회사에서 라이선스를 받아야 하고, 아카이브의 연구 애플리케이션에 새로운 데이터를 입력할 때도 쉬운 방법이 없는 경우가 많기 때문이다.

지식의 수명을 늘리려는 다른 활동들도 엇갈린 결과를 가져왔다. 웨이백머신(Wayback Machine)을 만든 인터넷 아카이브(Internet Archive)는 소프트웨어, 음악, 영상 등 수많은 디지털 자료를 보유하고 있다. 그러나 2022년 여름부터는 여러 제작자들이 제기한 저작권 침해 소송에 시달리고 있다.

약간 희망적 측면도 있다. 텍스트 인코딩 이니셔티브(Text Encoding Initiative, TEI)는 1990년대부터 기계 판독이 가능한 텍스트를 인코딩하는 국제표준을 유지하고 있다. 10년 전 미국 과학기술정책국(Office of Science and Technology Policy)은 연방정부가 지원하는 연구 프로젝트에 신청하려면 데이터가 미래에 연구자들이나 대중에게 사용될 수 있도록 하는 데이터 관리 계획을 제공해야한다고 규정했다. 오기에르는 “이제 연구비를 지원받는 거의 모든 연구 프로젝트가 자료를 어딘가에 저장해야 하는 상황에 이르렀다”고 말했다. 그러나 해당 규정에는 반드시 누가 데이터를 저장해야 한다거나 데이터를 얼마나 오랫동안 저장해야 하는지 등에 관한 매우 중요한 조건이 빠져있다.

아이디어, 지식, 인간의 창조물이 계속 사라지는 막을 수는 없다. 오기에르는 “우리가 모든 것을 저장할 수는 없다. 모든 것에 접근할 수 있게 할 수도 없다. 또 모든 것을 되찾을 수도 없다”며 “그래도 그것이 우리가 할 수 있는 일을 하지 않을 이유가 되지는 않는다”고 말했다.

이 글을 쓴 Erik Sherman은 매사추세츠주 애슈필드에 거주하는 프리랜서 기자이다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.