닉 티버거
소장, 파라디섹

아만다 해리스
소장, 파라디섹 시드니 지부

세계 언어의 4분의 1이 넘는 언어의 본거지인 태평양은 언어를 기록하기 위한 사업을 수행하기에 좋은 장소이다. 사실 이러한 기록들이 학계를 넘어 문화적 또는 역사적 관련성이 있음에도 불구하고, 연구기록의 작성과 설명은 인문학자들에게 항상 우선순위는 아니었고, 일반적으로 아카이빙을 위한 좋은 해결책을 제공하지도 않는다. 많은 문화 관련 기관과 연구자들은 녹음 자료를 기록하기 위해 애쓰고 있다.
하지만 연구자들은 아카이빙을 위해 기록자료들을 준비하는 과정에서나 그것들이 얼마나 많이(또는 적게) 적절하게 설명되었는지, 또는 녹취록이 작성되었는지, 번역되었는지 깨닫게 된다.
학계의 많은 연구자는 논문, 노트, 이미지, 녹음 자료 등 연구 과정에서 방대한 양의 기록들을 수집했으나, 자신들의 경력 끝에서 대외적으로 이를 이해시키는 데 어려움을 겪곤 한다. 이에 따라 시드니 대학, 멜버른 대학, 호주 국립대학 간의 협업을 통해 태평양 지역 사멸위기 문화 디지털 자료 기록원(Pacific and Regional Archive for Digital Sources in Endangered Cultures, 이하 ‘PARADISEC’) 프로젝트를 2002년 시작하였다. PARADISEC은 아날로그 테이프 컬렉션을 디지털화하고, 대중적 접근이 가능하도록 충분한 메타데이터(맥락정보)를 제공하는 목적을 가지고 있다. 이 테이프들은 은퇴했거나 이미 이 세상을 떠난 연구자들의 것이었고, 프로젝트가 아니었다면 집이나 도서관에 보관되었을 자료들이다. 그 내용을 찾기도, 접근하기도 어려웠을것이라는 점은 말하지 않아도 알 것이다. 지난 18년 동안 우리는 1,280개의 언어, 125테라바이트에 달하는 14,000시간의 음원을 추가했고, 이는 유네스코 세계기록유산으로 등재가 되었다.1

2016년 PARADISEC이 디지털화 한 테이프를 보고 있는 바누아투의 암봉 톰슨과 아살 라자레 © Nick Thieberger

소멸위기 언어 기록자료의 소멸 위기
당신이 바누아투의 130가지 언어 중 하나를 사용하는 사람이고, 40년 전 낯선 사람이 마을로 찾아와서 당신 가족의 대화와 노래를 기록했던 사실을 기억하고 있다고 가정해 보자. 당신이 아는 한 모국어가 담긴 다른 옛 기록물은 없으므로 당신은 그 기록을 찾고 싶어한다. 그렇다면 먼저 그때 방문했던 사람이 누구인지 알아내서 연락을 취해야한다. 만약 그 사람이 마을에서 보낸 시간에 관해 책을 출간했다면 인터넷 검색으로 이름을 찾을 수 있을 것이다. 하지만 책을 출간하지 않았다면 그 사람을 찾기는 더 어려워진다. 게다가 설령 그 사람을 찾는다 한들 녹음했던 테이프도 찾을 수 있을까? 그리고 테이프에 녹음했다면, 그 테이프를 어떻게 마을에서 재생할 수 있을까? 이 상황이 바로 2002년 일단의 호주 언어학자들과 음악학자들이 직면한 문제였다. 확인 결과 과거 태평양 주변 국가들에서 녹음된 수많은 아날로그 테이프가 대부분 주인을 잃은 채 사무실이나 가정에 방치되어 있었고, 정작 녹음된 목소리의 주인이나 그 가족은 해당 테이프를 접할 수 없는 상황이었다. 이에 학자들은 학계 안팎의 다양한 이용자에게 연구 결과를 전달하는 가교 역할을 할 수 있도록 태평양지역 사멸위기 문화 디지털 자료 기록원(Pacific and Regional Archive for Digital Sources in Endangered Cultures, 이하 ‘PARADISEC’) 이라는 연구 저장소(repository)를 개설했다. 전 세계 수많은 소수 언어의 녹음 파일과 녹취록, 그리고 독특한 문화적 표현에 해당하는 노래와 이야기가 주로 저장되어 있다.
이곳의 연구 자료는 대개 다른 기록이 거의 이루어지지 않은 지역의 구전 전통으로, 학술 연구 이상의 엄청난 가치를 지니고 있다. 기록물은 연구를 위한 기초 자료이지만, 기록된 사람과 그 후손에게는 특별한 의미가 있는 문화적 자료이기도 하다. 따라서 외부 연구자인 우리는 이 자료를 귀중하게 다루고 함께 작업한 사람들의 자료 접근성을 보장해야 할 특별한 책무가 있다.
전 세계적으로 7,000여 개의 언어가 있지만 대부분 기록이 거의 남아 있지 않다. 이러한 언어로 이루어진 연행을 연구한 언어학자, 음악학자, 인류학자가 양질의 녹음 기록물을 제작하는 경우도 종종 있다. 하지만 이 희귀 기록물을 저장할 디지털 저장소가 없다면 기록 분실의 위험이 존재한다. 이 프로젝트의 목적은 ‘언어 수호’도 ‘음악 수호’도 아니다. 우리는 전 세계에 존재하는 다양한 언어와 연행을 보여주는 기록을 지키려는 것이다. 남아 있는 기록은 대개 인터넷에서도 배제되는 미미한 주변부의 목소리에 존재감을 부여한다.
1990년대까지 PARADISEC의 희귀 기록 대부분은 아날로그 테이프에 저장되었다. 릴이나 카세트 형태의 아날로그 테이프는 몇 년 안에 재생이 어려워질 수 있다는 심각한 문제가 있다.2 테이프 재생 장치가 없다는 것은 자료에 대한 접근성을 제한하는 하나의 요인이다. 이 문제는 오픈릴 테이프의 경우 특히 두드러지지만, 카세트테이프도 마찬가지이다. 이보다 더 심각한 문제는 테이프 자체가 점점 낡아서 수명을 다하게 될 것이라는 점이다.
아날로그 테이프도 취약하지만 디지털 기록은 그보다도 더 쉽게 손상될 수 있다. 하지만 역설적이게도 현재로서는 아날로그 오디오를 보존하는 수단으로 디지털 기록이 권장되고 있다.3 확장자나 소프트웨어가 변경된 탓에 10년 전에 만든 디지털 파일도 열 수 없었던 경험이 누구에게나 한 번쯤은 있을 것이다. 불완전하나마 이 문제를 해결할 방법은 살아남을 확률이 높은 확장자로 모든 파일을 변환하는 것이고, 이때 기존에 정해진 표준을 따르게 된다. 그래서 우리는 wav, txt, xml, tif 파일을 아카이빙하면서 전달용으로 mp3, pdf, jpg같은 저해상도 사본도 저장한다. 그뿐만 아니라 날마다 여러 장소에 백업용 사본을 만들어 둔다. 2019년 우리는 PARADISEC이 모든 필수 표준을 준수했음을 의미하는 세계과학데이터시스템(World Data System, www.icsu-wds.org)의 데이터 인증 승인을 받았다. 그리고 2013년 PARADISEC의 컬렉션은 유네스코 세계유산목록에 호주의 세계기록유산으로 등재되었다.

바누아투의 이라코 마을에서 라즈베리파이 컴퓨터에 저장된 관련 기록자료를 지역 무선 네트워크 연결을 통해 모바일 장치로 보고 있는 모습 © Nick Thieberger

프로젝트 마무리 계획
PARADISEC은 그간 많은 찬사를 받았지만, 대학에서나 국가 전체에서나 연구 인프라 환경에 머물러 있어 연구 성과물에 대한 장기적 큐레이션은 제공할 수 없다. 그렇지만 우리는 특정 유형의 연구 데이터를 설명하고 큐레이션하는 시스템을 개척했으며, 이러한 방식을 다른 유형의 데이터에도 확대 적용할 수 있다고 확신한다. PARADISEC의 데이터베이스는 메타데이터 입력을 관리하고, 입력 자료가 파일명 설정, 메타데이터 조건, 파일 유형, 고유 식별자, 디지털 객체 식별자 할당 등 자체 기준에 부합하는지 확인한다. 각 항목에 대한 전체 설명이 그 데이터를 보관하는 디렉터리의 파일에 기록되므로 이는 목록 작성 소프트웨어와 상관없이 자체 설명적인 컬렉션이며, 컬렉션 자체에서 전체 컬렉션의 목록이 재구성될 수 있다. 각 항목은 컬렉션 수준과 항목 수준의 메타데이터를 저장하며 이 메타데이터는 목록 내용이 수정되어 저장될 때마다 업데이트된다.
PARADISEC은 이러한 자체 설명 디렉터리 컬렉션에서 임의의 하위 집합을 만들 수 있어 메타데이터를 분실하지 않는다. 우리는 정기적으로 태평양 지역의 문화센터나 박물관에 파일을 제공한다. 하드디스크에 담기만 해도 파일을 이용할 수는 있지만, 목록이 없으면 파일탐색이 불가능하지는 않더라도 무척 어려워진다. 이를 해결하기 위해 우리는 하드디스크를 탐색해 해당 파일에 관한 HTML 목록을 작성해서 로컬 뷰어를 생성하는 앱을 개발했다.4 PARADISEC이 미디어 플레이어, 이미지 뷰어 등 온라인 목록에서 제공하는 동일한 서비스도 이 로컬 뷰어에서 이용할 수 있다. 이러한 하위 컬렉션 집합과 목록은 소규모 무선 네트워크와 연결되는 라즈베리파이(Raspberry Pi) 단말기에 저장할 수 있어서 모바일 장치로도 접속할 수 있다.
PARADISEC의 아카이브는 복제와 인용이 가능한 고정된 형태의 연구 데이터를 제공함으로써 활동의 중심지가 된다. 즉, 이곳에서 연구 자료는 획기적인 방식으로 재사용될 수 있으며 시간이 지나면서 새로운 지식이 컬렉션에 반영된다. 아카이브는 결코 연구의 종점이 아니며, 기록된 당사자들과 미래 연구자들과의 지속적이고 쌍방적인 관계 속에 이러한 자료를 반복해서 재입력한다. 아카이브를 구축하려는 노력이 없다면 프로젝트가 끝나는 순간 그 프로젝트에서 생성된자료는 이용이 어려워진다.
파일 수집, 품질 보증, 사용자 관리, 연구 자료 컬렉션 이용(특히 미디어 기록, 녹취록 및 언어/음악 현장 연구 자료) 등 프로세스 대부분은 자동화되어 있다. 우리는 홈페이지를 통해 데이터 관리와 파일명 설정에 관한 조언을 제공하며 정규 교육 프로그램도 운영하고 있다.
교육 프로그램 참가자들에게는 현장 연구 단계부터 아카이빙 작업을 구상해야 하며 적절한 툴을 사용해서 결과물을 아카이빙하고 전용 포맷에 갇히지 않아야 한다고 강조한다.
일단 파일이 컬렉션에 저장되면 디지털 객체 식별자(DOI)를 부여하고 PARADISEC 시스템에서 접속 조건을 시행한다. 목록에 등록된 각 사용자가 일련의 조건을 수락하면5 파일 위탁자가 자료의 사용방식을 명시한다. 등록 사용자는 ‘공개(open)’로 설정된 항목의 파일을 다운로드할 수 있다. ‘제한(closed)’ 상태 항목은 접속에 제약이 있음을 의미하지만 위탁자가 그 항목에 대해 등록 사용자에게 개별적으로 접속을 허용할 수 있다. 또한 컬렉션이 구성 중일 때는 ‘비공개 (private)’로 지정해서 메타데이터까지 비공개로 전환하며, 비공개 상태가 종료될 때까지는 DOI가 부여되지 않는다.
현재 PARADISEC의 시스템이 노후화되고 있어 옥스퍼드공동파 일레이아웃(OCFL, https://ocfl.io)을 사용하여 파일과 연구객체크레이트(RO-Crate, http://www.researchobject.org/ro-crate)를 저장하려는 계획을 추진 중이다. 이 방식은 기존에 메타데이터 파일에 있던 것과 동일한 유형의 설명을 제공하지만 현재 표준을 준수하는 포맷으로 제공된다. OCFL과 RO-Crate에는 많이 사용하는 제이슨(JSON) 기술이 적용되어 기존의 루비온레일즈(Ruby on Rails) 시스템보다 우리의 향후 개발 단계에 보다 유용할 것이다. 우리는 이러한 표준 방식을 사용하는 시범 모델(https://mod.paradisec.org.au)을 구축함으로써 자체 보유한 컬렉션이 실행 가능하고 유익한 방향으로 나아갈 것임을 확고히 했다.

결론
PARADISEC은 연구 데이터에 대한 책임감 있는 큐레이션이 이러한 자료에 대한 광범위한 공동체의 관심에도 기민하게 대응하는 방식으로 이뤄지는 모범 사례를 제시한다. 현재 진행 중인 프로젝트는 일차 데이터 생성부터 파일명 설정, (파일 수명 최적화를 위한) 데이터 포맷 선정을 거쳐 저장소 저장에 이르는 업무 주기를 구축했다. 문화유산 기록을 제공하는 이 온라인 시스템에 접속한 사람들은 자신의 언어로 정보를 찾을 수 있게 되었다. 아직도 발굴해야 할 기록이 많이 남
아 있지만, 우리에겐 확실한 기반과 안정적인 시스템이 있기에 앞으로도 지속가능한 성장을 이어갈 것이다.

NOTES
1. UNESCO National Committee of Australia, “Pacific and Regional Archive for Digital Sources in Endangered Cultures (PARADISEC),” Memory of the World #42, www.amw.org.au/register/listings/pacific-and-regional-archive-digital-sources-endangered-cultures-paradisec.
2. National Film and Sound Archive of Australia (2017). “Deadline 2025: Collections at Risk,” www.nfsa.gov.au/collection/curated/deadline-2025-0.
3. International Association of Sound and Audio-visual Archives (2009). “Guidelines on the Production and Preservation of Digital Audio Objects,” www.iasa-web.org/tc04/audio-preservation.
4. Arc Centre of Excellence for the Dynamics of Language, “Data Loader,” https://language-archives.services/about/data-loader.
5. PARADISEC, “Conditions of Access,” www.paradisec.org.au/deposit/access-conditions/.