?

2017年數字資源長期保存國際會議(iPRES 2017)綜述

2018-01-24 19:04上海圖書館上海200031
圖書館建設 2018年12期
關鍵詞:數字資源研究

楊 佳 (上海圖書館 上海 200031)

數字資源長期保存國際會議(International Conference on Digital Preservation,簡稱 iPRES)是國際上分享與交流如何保存與管理數字空間內的文化資源的措施、討論數字資源長期保存相關問題的學術會議。自2004年以來,年會由歐洲、北美洲、亞洲和澳大利亞的相關文化機構輪流舉行。2017年的第十四次年會,于9月25至29日在日本京都舉辦。

1 年會概況

iPRES 2017由日本信息資源管理、數字與人文研究界,圖書館、博物館、文獻館等主要文化記憶機構共同舉辦,會議地點安排于京都大學內的國際科學創新樓。來自于25個國家/地區的197名代表參加了此次會議。

從各機構的長期保存研究與實踐以及前幾屆的iPRES大會報告中可以了解,理論研究已經早非iPRES關心的重點,從2004年在北京召開了首次會議以來,各研究機構或自主、或合作,實踐了大量數字資源長期保存的最佳案例,在此過程中積累了相當經驗,形成了一系列的標準規范和操作指南。目前數字資源長期保存的研究者開始對一些重點領域 (如科研數據、個人數據倉儲等)投入相當關注。近年來,大規模的數字化圖書、圖像、音樂、視頻、游戲內容呈現爆發式的增長,但對于這些數據的長期保存研究則相對落后。本次會議將視野擴展到流行文化,主題是“保護數字空間中的多元文化,將它們傳遞給未來——從流行文化到學術信息”(Keeping Cultural Diversity for the Future in the Digital Space — from Pop-Culture to Scholarly Information)。除此之外,數字資源長期保存領域內先進技術的應用,如語義網、機器學習、自然語言處理等,個人(研究者)構筑的非標準數據庫的長期利用等的跨學科課題也是本屆會議積極討論的內容[1]。

會議進程沿用iPRES一貫程式,有專題研討和主會議兩個階段,專題研討部分安排有各類交流會、研討會和培訓,包括探索保存標準和分布式數字保存、對隱私敏感數據集合的長期保存與授權訪問等的專題研討會;以及偏重于解決具體的實踐性問題的培訓,如使用Fedora管理數字內容、理解與實現PREMIS等。主會議階段安排有3場主旨報告,并從元數據與關聯數據、數據管理、仿真與軟件保存、教育與培訓、數據采集與評估、社區建立、保存工具、長期保存系統、內容分析、認證等方面安排了30個報告,并借主辦方便利,首次開展了關于亞洲地區數字資源長期保存研究與實踐的專題交流。

可能是第一次在日本主辦的關系,會議首日安排有半天的日語系列講座,筑波大學圖書館、信息與媒體研究院的杉本重雄教授介紹了日本數字資源長期保存概況,此外還有日本學者關于社會調查中問卷數據的采集、保存和二次利用的專題講座,以及以東京大學檔案館在近代日本史研究方面、日本國立歷史民俗博物館在考古研究中歷史圖像數字化與保存的實踐為例的日本在歷史、文化數據管理(Digital Curation)上的實踐。系列講座一方面向日本學者介紹了數字資源長期保存,另一方面,也方便與會人員了解日本在此方面的實踐,為接下來幾天的講座起到了熱身的作用。

1.1 特別交流會

作為主辦機構的京都大學東南亞研究中心(The Center for Southeast Asian Studies,簡稱 CSEAS)是一個獨特的跨學科研究所,積極促進區域研究和信息學的融合,其東南亞區域研究在日本占據領先地位[2]。CSEAS的原正一郎教授是年會的聯合主席,本次年會對亞洲地區數字資源長期保存研究與實踐的現狀首次進行了討論。而會議主題中的流行文化,包括東道主特別擅長的動畫和漫畫的數字資源長期保存也作為另一個特別交流會的討論內容。關于亞洲地區數字資源長期保存研究與實踐的專題交流分為兩部分,包括會前的閉門交流會和正式的專題交流會。

會前的半閉門交流會由原正一郎教授主持,借助CSEAS的研究優勢,側重于東南亞學術資產的保存與共享。該半閉門交流會也歡迎與會人員作為觀察者參與,張曉林教授在交流中介紹了中國科學院文獻情報中心(國家科學圖書館)數字資源長期保存體系的建設實踐。亞太各國在文化、語言和經濟環境上的發展差異很大,但各國都在產生越來越多的數字資源,數字資源長期管理、保存、使用是各國共同關注的課題。通過會前半閉門交流會的安排,在正式的專題交流會上,來自中國、日本、菲律賓、泰國和新加坡等地的與會人員分別分享了所在機構或國家(地區)的數字資源長期保存的最新信息,CSEAS的研究人員補充了如柬埔寨等國的長期保存現狀,并與世界其他地區的與會人員討論數字保存問題。

日本國立國會圖書館的網站存檔項目(WARP),數據量已經超過1PB,超過50億個文件,其中85%的內容可公開獲取[3]。在項目建設中,網站存檔與服務網站直接相連,一些公共機構甚至將參與WARP項目作為其運營數據備份的一種形式。對于WARP項目中的數據,日本做了不少分析研究,也整理建立了一些特別的數據集合,比如地震前后的對比情況。

新加坡國家檔案館的公民檔案項目,發動民眾當“公民檔案管理員”,通過眾包的形式,憑借群體之力為歷史文件進行抄寫及轉錄,或借助集體回憶為舊照片提供圖解,推動歷史研究[4]。項目網站上的資料主要是新加坡海峽殖民地(Straits Settlement)時代的手寫公文及信件,很多以英文草書字體書寫,注冊用戶通過仔細閱讀,可以進行內容轉錄,將識別出的文字輸入系統;或者為新加坡國家檔案館收集的大量由各政府單位或機構或民眾移交或捐贈的,缺少文字說明的舊照片添加圖解說明文字[5]。新加坡國家圖書館管理局的Lee Kee Siang提到,數字資源長期保存是新加坡國家數字戰略的一個專門的重點領域,其目標是讓每個公民都能夠訪問數據,使用數據。新加坡國家圖書館的珍貴館藏都將被攝取并長期保存。

在交流討論中,多位發言人提到了數字資源建設的一個通病,由于早期數字化圖像時采用的分辨率太低,亞洲地區在應用數字資源長期保存平臺時遭遇向后兼容問題,部分圖片需要重新數字化。而共同面對的困難則包括海量數字內容與有限的資源之間的平衡、技術設施的缺乏,機構長期保存責任的意識淡薄等。

此外還有與流行文化的代溝問題。在日本,數字內容產業還包括一個巨大的動畫游戲市場。動畫游戲更新快、數據流失也快,如何采用適宜方式保存這些不斷發布的游戲內容,是日本文化機構努力想解決的問題。在新加坡,其智能手機普及率全球第一,人均設備持有數高達3.3個。年輕的社交媒體用戶經常在Snapchat平臺上進行社交,該應用的“閱后即焚”功能,使得數據被采集時,已經失去了上下文相關信息。這些不斷出現的新的動態網站以及前端展現的技術,使得新加坡自2006年啟動的旨在收集、保存包括新加坡的網站和關于新加坡網站的網站存檔項目,難以尋找到完善的捕獲內容、解決安全問題的方案。

1.2 主旨報告

主會議階段每天安排一個主旨報告。

數字資源長期保存的資助者傾向于要求開放數據和數據管理政策,以確保數據的長期存儲與獲取。這就要求在長期保存體系設計時,就將可信賴放于首位。荷蘭數據歸檔與網絡服務中心(Data Archiving and Networked Services,簡稱DANS)的Ingrid Dillo通過分析數據共享、存儲認證的發展現狀,提出推動數據,尤其是科學數據的開放共享與規范引用,數據的共享使用是減少數據造假的有效途徑[6]。那些出于個人知識產權考慮或別的原因沒有共享出來,而是保存在個人電腦或便攜存儲上的數據更容易面臨長期保存的問題。但是來自于外部的驅動因素,如研究基金的政策或者是出版要求等,是激勵研究者共享數據的一種方式。以iPRES 2017結束后不久的一條新聞為例,2017年10月起,劍橋大學的所有博士畢業生都被要求提交電子版博士論文,以便保存。同時,劍橋大學圖書館也可以利用這個機會在互聯網上公開發布。為慶祝今年的開放獲取周,斯蒂芬·霍金的博士論文首度免費公開,受歡迎程度幾乎致使學校服務器癱瘓[7]。此舉雖然是為了推廣開放存取,但數據保存,正是未來開放的第一步。為消除長期保存過程中,利益相關者對數據準確性、完整性的質疑,提高數據長期保存的意識,改善溝通和工作流,Ingrid Dillo提出在數字資源長期保存領域需要與FAIR數據、開放數據建立聯系,將FAIR作為數據質量檢查的原則應用于實際操作中,建設可信任的數字保存系統。

加州大學伯克利分校東亞圖書館周欣平館長的主旨報告以數字敦煌項目建設為例,介紹其中數字資源長期保存平臺的實踐。數字敦煌的長期保存工作流涉及3個模塊:數據管理模塊創建文本、圖片、音視頻資源并編目,同時將其與高精度的數字化文件一起提交給數字敦煌平臺,這一模塊同時對版本進行控制;長期保存模塊負責校驗、驗證數字化文件,提取技術元數據,跟蹤版本變化,同時監控過時的文件格式,進行遷移、在數據磁帶上備份數據;數據發布模塊利用數據管理模塊中的元數據進行數據共享[8]。周館長介紹,工作中最難的一點是讓工作人員在創建數字資源時,就認識到這是長期保存工作的起點,具有相當重要性[8]。

立命館大學映像學部中村彰憲的主旨報告以學校的游戲存檔項目為例介紹了日本在數字游戲長期保存方面的研究。數字游戲軟硬件方面的蓬勃發展給該項目帶來了巨大的挑戰。該項目試圖通過3種形式進行保存,除了物理介質的軟硬件保存之外,還包括通過模擬器和操作游戲時的視頻圖片的采集[9]。

1.3 專家組研討會

專家組研討會由來自英國國家檔案館、法國國家圖書館、劍橋大學圖書館、中國科學院文獻情報中心等機構的專家共同組織。這幾位專家目睹了數字資源長期保存工作在這些年的發展,也擔憂從事這一領域的工作人員與資源并未得到同步的增長,因此提出了效率實用主義(Operational Pragmatism)的概念[10]。

全面、徹底地開展數字資源長期保存工作需要投入大量的基礎設施和資源,當前這一領域的最佳實踐通常依托于一流研究機構,或在發達國家的國家檔案館、國家圖書館。但是小型機構、發展中國家的組織往往還掙扎在數據管理的基礎工作中。在資源有限的情況下,如何有效計劃、有條不紊地發展發展中國家的資源保存工作,專家們從基礎設施與存儲建設、預攝取流程、保存元數據、可伸縮性、技術策略、工具和工作流等不同主題提出了一系列意見與建議,目的是根據不同文化、機構和情景語境,商討一系列最低限度的基線,可用于數字資源長期保存的規劃與戰略發展,同時將這些基準調整到當地環境。比如數字資源長期保存知識的培訓,英國國家檔案館的Anthea Seles認為必須明確技能培訓的邊界,確保核心知識技能的培訓;張曉林教授認為,應該區分可快速完成的職業技能基礎培訓和對長期保存領域研究者的深入培訓。

2 當前研究熱點

主會議階段安排有10多場30多個報告,由于筆者無法一一參與所有分會場,對會議論文進行了匯總、分析,并參考了年會的合作紀要備忘錄[11],總結出此次會議的6個研究熱點。

2.1 元數據領域的新理念

METS作為描述元數據、管理元數據、結構元數據的編碼及轉換標準,被廣泛應用于數字圖書館的建設。METS 1.0標準下允許直接封裝經過Base64編碼的二進制數據,然而實際應用中幾乎沒有機構這么使用,甚至芬蘭在制定國家層面數字資源長期保存時的METS綱要時禁止使用。同樣的,結構鏈接部分和行為機制部分也未如設計初衷那樣被廣泛使用。此外METS的結構過于復雜,子元素嵌套層次過多,掌握起來較復雜,提高了使用的門檻。METS編委會在年度會議討論中,提出了簡化METS(METS Lite)。這一想法首次被提出是在iPRES 2015會議上,今年,編委會提出了具體的方案,從確定未使用、少使用、容易被誤使用等方面著手開始簡化,其他備選方案還有為長期保存、元數據傳遞等不同的目的優化限定不同的METS、簡化后的METS作為METS 2.0 與 1.xx 共存。

數據溯源是OAIS模型定義的長期保存描述信息的重要組成部分,應確保元數據的壽命及將來可用。數據溯源包括描述改變情況、元數據對象上產生的活動等。筑波大學圖書館情報媒體研究科博士生李春秋進行了元數據長期利用視角下元數據溯源描述模型的構建研究,認為應當跟蹤元數據定義的修改,以防止將來使用元數據時出現不一致的情況[12],并由此提出了基于數據溯源的一系列規范PROV和DC元數據新加坡框架的描述元數據溯源的應用綱要的模型。

關聯數據的應用成為新的實踐熱點。耶魯大學、法國國家圖書館、開放存儲基金會的研究團隊正在嘗試為Wikidata(維基數據)中的數字資源長期保存領域建模的過程中,認為采用協作方式創建元數據,并將其作為關聯數據開放,會減少長期保存專家在描述資源時的冗余工作[13]。Wikidata是一個旨在將維基百科大量的信息結構化,增加利用價值的項目。和其他的維基項目一樣,是人人可編輯的。在此過程中,采用機器可讀、關聯開放的數據描述數字資源長期保存領域還能在應用程序和信息系統中實現數據重用,降低開發新應用工具的系統開銷。此外,Wikidata的社交性以及技術基礎架構可使長期保存參與者采集、整理的數據持續可用。通過參與Wikidata社區的交流討論,該研究團隊認為,將Wikidata作為國際間的數字資源長期保存社區技術型元數據的機構庫服務是可行的[13]。

2.2 可用于長期保存的新工具

大量數字資源長期保存項目實踐帶來了新的機會、挑戰與經驗,在此過程中,既給理論研究帶來了新的反思,也研發產生了一系列新工具的應用。

PDF是交換固定內容電子文檔的常用文件格式,被廣泛應用于學術和文化遺產領域的出版、研究和傳播中。因此,PDF/A也被認為是適宜于長期保存工作的存檔格式大量使用于保存系統,但最近對此產生了一系列爭論。德國柏林楚澤研究所(Zuse Institute Berlin)的 Marco Klindt通過對PDF/A發展歷史和技術復雜性的回顧,對其優缺點、可訪問性和可重用性方面的潛在缺陷進行研究,認為這些潛在問題可能為將來的內容用戶帶來問題,為此他提出了一系列策略來緩解這些問題[14]。由文化遺產機構和PDF產業合作建立的veraPDF聯盟也共同研發了一款開源的、可用于PDF/A一致性檢查的工具軟件[15]。

同樣的,對PDF進行語法和結構驗證的格式驗證工具JHOVE,對于其驗證規則有效性的正式的全面測試,也受到了關注。歐洲的一個研究團隊提出以一組輕量級的文件來測試JHOVE PDF模塊的格式驗證標準,通過測量其語料庫的代碼覆蓋率,并將檢測到的不一致的內容送回開源開發過程[16]。數字資源長期保存與軟件管理都具有周期性的特點,長期保存工作需要定期評估,軟件需要不斷的更新以確保能跟上技術發展與機構需求。該研究團隊特別強調,類似的測試工作在每一次軟件更新時都需要進行。

紐約公共圖書館已經數字化了5萬多件音視頻資源進入長期保存,文件大小超過了1.5PB。在OAIS定義的質量保證和審核提交功能階段,使用BagIt文件打包格式。由于數據量巨大,在數十萬個數據包中存儲數千兆字節,對圖書館的工作提出了很高的要求,數字資源長期保存部門的負責人Nick Krabbenhoef介紹了在此過程中,對于無法通過OAIS審核的內容,他們是如何適度框定數據包攝取規模、擴展bagit-python庫解決這一問題[17]。使用BagIt打包時,包含的文件數量和文件大小會記錄在0xum中,并通過哈希表校驗。這一方面保證了攝取數據的完整性和準確性,另一方面,打包時錯誤地包含了系統文件、或者打包之后重新修訂元數據、對文件進行重命名等操作會使得0xum的內容錯誤,從而導致整個數據包失效。對這類錯誤的響應對改進工作流至關重要,然而對于如此巨量的數據,手工響應是不可能的。因此,紐約公共圖書館通過bagit-python庫開發了可以在數據包中有選擇地刪除系統文件、更新檢驗并記錄修正時間日志的工具。

芬蘭國家科學IT中心的研究團隊開發了一個開源的預攝取工具,可以幫助生成SIP,提交給芬蘭國家數字資源長期保存服務平臺[18]。這一工具包括可以按照服務平臺對METS文件的要求,生成其中的不同段落,當有不同的使用需求,或者是為不同機構庫服務時,可以通過對工具定義的必要信息和參數的快速簡單的修改重新生成SIP的結構與描述信息。該工具可以方便對METS、PREMIS或其他元數據格式不那么熟悉的人員/機構進行數字資產的長期保存。

DuraSpace公司在Fedora的升級過程中,面對軟件不斷升級、甚至重構帶來的無損數據保持、數據遷移問題,開發了一種可用于數據遷移的工具[19]。這一數據導入/導出工具遵循RDF和BagIt文件打包格式,既可工作于不同版本的Fedora之間,也可與其他長期保存系統(如LOCKSS、APTrust等)間實現無損數據遷移,加強了不同機構存儲平臺間的互操作性。

印第安納大學伯明頓分校的研究人員通過一個游戲仿真器的數據保護案例,提出一個依托于Intel SGX實現的,在不可信平臺上運行可信軟件,保護敏感的原生數字內容的保密性和完整性的方式[20],該方法可幫助圖書館、檔案館在授權用戶獲取數字對象的同時,限制非授權復制的風險。

還有一些新工具,是伴隨著新技術,如語義網、機器學習、自然語言處理等的應用而產生的。前期的數字圖書館建設已經使得大量歷史文獻的書目數據和圖像在互聯網上發布。若想通過諸如關聯數據等形式,用結構化方式重整這些書目數據,元數據提供者就需要從書目中提取結構化信息,這需要相當的專業能力和時間。佐賀大學的研究者提出了一種半自動的方式將日文書目數據中的自然語言轉換為關聯數據[21]。這一方法包括按照歷史遺產研究方法的命名實體的本體識別,幫助機器獲取諸如封面圖片的創建者等信息,并最終創建從命名實體到URI的連接。

此外,目前雖然已有大量的開源自然語言處理工具可以識別命名實體,但圖博檔機構在對原生數字資源的處理、分析工作中,這類工具的使用還不普及。北卡羅萊納大學教堂山分校的研究者通過對原生數字資源的復雜性和可能的用例進行研究,分析報告了將BitCurator NLP用于從原生數字資源文本中提取特性的可行性[22]。

2.3 特色數字對象的新應用領域

科研數據長期保存,尤其是大型異構數據集的保存與管理、科研過程建模與工程模型的模擬、風險模型與依賴關系管理是當前研究的熱點。成功的科研數據長期管理應該貫穿整個項目階段。數據管理不僅僅是研究人員的責任,其所在機構也應當提供必要的技術基礎設施、咨詢和支持。德國研究基金會資助的一個研究團隊通過一項針對研究數據管理的項目,開發了一個支持規劃、實施和組織研究數據管理的工具[23],可為機構認證過程提供接口,以便本地化安裝、部署。主要功能包括在項目過程中,不斷更新、增加信息;為不同的用戶,如研究人員、項目協調人員、IT部門、數據管理人員提供不同的自定義視圖;提供多種數據導出,包括數據管理計劃的導出。未來將就數據管理任務,如時間期限和提醒等繼續進行探索。

對特定領域和復雜對象數據的長期保存,是近幾年長期保存實踐中面臨的一大挑戰。數字藝術、動畫游戲、社交媒體這些流行文化中產生的數字內容該如何對其制定長期保存方面的策略、計劃、工作流,也是本次年會的主題之一。

來自法國的一個研究團隊通過3年的研究,致力于將數字藝術,特別是互動式的藝術展覽長期保存。這類藝術作品從概念設計到實現,通常包括算法設計、建造實施、互動展示等一系列復雜的過程,他們為此研發了一個數字藝術作品的通用描述系統,設計了一個概念模型和真實的數據模型[24]。

動畫游戲作為一種不斷發展的媒體,不斷涌現新技術,比如將物理世界與虛擬世界結合,且融合了社交元素的增強現實游戲,如Pokmon GO、Ingress等,不斷在給長期保存帶來新的困難。華盛頓大學的研究團隊通過對這兩款游戲進行案例研究,試圖描述清楚這些挑戰[25]。之前針對動畫游戲的長期保存側重于通過采集相關工作和文檔來保存游戲的背景和歷史,但對于增強現實游戲之中沒有確定性的行為,根據現實世界的變化會產生不同結果的游戲來說,這是一個全新的挑戰。

無論是互動藝術,還是動畫游戲,本質上都是一種軟件。當前社會生活離不開各類軟件。軟件的長期保存逐漸成為數字保存社區的熱門話題。軟件的表現形式——源代碼,作為數字對象,被認為需要納入長期保存。法國國家信息與自動化研究所和巴黎第七大學的研究團隊提出了軟件遺產的概念,倡議對公眾可訪問的軟件源代碼進行收集、保存、共享語料庫[26]?;ヂ摼W上存在著眾多的開源項目發布場所,由于種種原因,使用這些平臺的代碼進行應用開發時,往往會造成無意識的代碼損失。該研究團隊通過Merkle DAG有向無環的數據結構設計了源代碼存檔平臺Software Heritage,目前已收集500多萬個軟件開發項目的30多億個軟件源代碼文件,包括GitHub、Debian、Google Code等多個軟件源代碼托管平臺。

對于過時的軟件,模擬當時的軟硬件環境,讀取原始信息,重現用戶的交互體驗,是長期保存方案的重要組成部分。但模擬仿真環境的構建需要專業人員花費大量時間配置,難以大規模推廣。歐美一個跨國團隊的研究通過將仿真即服務(Emulation as a Service,簡稱 EaaS)加入實際的數字資源長期保存基礎架構之中的實踐,從耶魯大學數字資源長期保存系統Preservica中提取出一套過時軟硬件的信息,其METS記錄中,包括了描述安裝和使用順序的內容,將其與弗萊堡大學的仿真框架服務鏈接,EaaS中的描述工具采集技術環境的需求信息,將提取出來的信息還原至事先已經配置好的舊時的操作環境中,使得耶魯大學的用戶可以快速方便地重現早期用戶在Win95/98環境下使用該軟件時的交互體驗[27]。這一研究為模擬仿真的規?;褂锰峁┝艘环N新方案。

還有一些信息,由于使用了更過時的軟硬件環境,已經難以讀取,比方標準軟盤的鼻祖——8英寸軟盤。來自澳大利亞、德國的研究者共同合作,通過信號模擬方式自制了一套讀取設備進行搶救性的數據讀取,并以此提醒在長期保存工作中,相關硬件設備的保存也至關重要[28]。

電子郵件在當前人們的生活、工作中扮演著重要的角色,是反映個人自我表現、交易記錄、合作、人際網絡的獨特視角和證據。一些名人,如政客、作家、科學家、學者等在電子郵件通信中顯露他們的專業性,也不可避免流露出個人行為,同樣的,電子郵件也能反映人群中的社交關系。斯坦福大學特藏與檔案部開發的ePADD,是一個免費、開源的計算分析軟件,支持從評估、攝取、處理、發現到傳遞的電子郵件歸檔過程[29]。軟件開發過程中使用了計算機科學和計算語言學領域的技術,如自然語言處理、命名實體識別、機器學習等。ePADD可幫助研究人員、新聞記者、一般公眾通過電子郵件集合了解更多的事件信息。

2.4 可信度保障體系建設

數字資源長期保存的根本目的在于確保資源的長期可獲取性,因此保存資源的完整性、可用性與可持續性都需要得到保證,這就對數字資源長期保存的可信度提出了要求。

獨立機構進行長期保存時,可在戰略制定時引入差距分析[30]。為幫助機構在系統實施過程中,從當前眾多的分布式數字資源長期保存服務選擇合適的平臺服務,數字資源保存合作聯盟MetaArchive 2016年執行委員會會議決定采用案例研究的方法,對9種分布式數字資源長期保存服務進行環境掃描,包括MetaArchive、APTrust、DPN、TDL、DuraCloud、Preservica、Chronopolis、Rosetta 和Arkivum,并比較異同[31]。通過對組織方面的探討,如治理、支持和培訓、文檔、社區建設、交流合作、市場營銷等,以及技術方面,如功能性、安裝和配置、內容、攝取、存儲、安全、訪問與集成等的比較分析,幫助圖書館在選擇長期保存系統時有所參考依據。

在多機構合作保存的模式中,如何結合OAIS參考模型的概念和原則,對其中分布式的部分進行校準,如確定一個完整的數字對象是否被獨立保存,以確保在需要的時間內至少有一個正確的復本是存活的。這需要參加合作的組織、機構間的具體協議來實現。丹麥皇家圖書館在國家長期保存機構庫項目實踐中,使用了OAIS模型的擴展Outer OAIS-Inner OAIS(OO-IO)模型幫助分析分布式OAIS機構庫中的復雜的數字資源長期保存任務的分解,實現系統設計與審核[32]。

2.5 文檔、教育與培訓

隨著長期保存項目的廣泛開展,越來越多的研究者和工作人員參與到這一活動之中。牛津大學圖書館的兩個研究者設計并實施了一個數字資源長期保存培訓需求評估的項目,包括在職員中確立是否存在培訓需求、根據實際需求有目的地建立培訓計劃并實施[33]。項目實施過程中,采用數據管理職業培訓的課程框架DigCurV對結果進行計量。通過設計一系列問題,該研究項目組首先對牛津大學研究檔案館(Oxford University Research Archive,簡稱ORA)的9位不同崗位、層級的工作人員進行了訪談,了解他們對所從事工作的掌握程度,以及是否可將相關技能通過培訓傳遞給其他工作人員。訪談問題包括元數據標準、交流溝通技能、長期保存領域知識、項目管理、長期保存計劃規劃能力、法律框架等。研究表明,ORA的工作人員對傳統的圖書館技能(如元數據編輯等)非常擅長,但對于他們正在從事數字資源長期保存工作究竟在ORA的服務中起到什么作用并不太了解,當然,從專業角度看,他們非常了解長期保存不當的風險。第二輪訪談則是針對牛津大學機構庫的6位軟件開發工程師,同樣的,他們對傳統圖書館業務比較了解,而對長期保存領域的知識,只是大致知道存在另一套體系。該研究下一步準備就訪談評估發現的問題,制定有針對性的培訓計劃。

幫助圖書館員掌握信息領域各類新興技術(如數字科學、數字人文等)至關重要。美國國會圖書館在館藏數字化利用建設的過程中,不僅著重于緊跟技術潮流,深化對數字館藏的探索與價值發掘,更擴展合作伙伴,形成一個廣泛的社區,幫助從事該工作的圖書館員掌握新的技能[34],以此促進機構創新。

在存檔和信息技術之間,數字資源長期保存處于一個微妙的位置,雙方都可能互相忽視對方。因此數字資源長期保存成功與否、技術文檔的質量具有相當重要的作用[35],包括應用、軟件、硬件在內的技術方案的不斷發展,但圖書館、檔案館在管理原生數字內容時往往忽視對相應技術文檔的更新。美國的兩位研究者在報告中提出,要在數字存檔工作中的理論研究和技術實踐中建立橋梁,并建議,在數字存檔社區中,采用更以人為本的方式,兼顧雙方的工作和需求來建立、維護技術文檔。

2.6 可擴展、可持續的服務

荷蘭在數字資源長期保存的項目實踐與研究中,始終處于最早作出反應、活躍的位置。由于具有豐富的經驗,本次年會中,多個來自荷蘭的研究項目均著眼于如何保證項目的可擴展、可持續性。荷蘭數字保存聯盟的研究團隊以專題研討會的形式,分享他們通過分解各階段工作任務的形式,定義數字資源長期保存的供求關系、分級評估機構的長期保存需求現狀,進而在全國性的分布式網絡內尋找可滿足自己機構需求服務的適當方式,幫助檔案館和文化記憶機構共享資源,在全國范圍內建立分布式的數字資源長期保存網絡。這樣的合作形式,對小型機構有效率的數字資源長期保存大有裨益。

由多家大型機構數字資源長期保存專家組成的荷蘭數字文化網絡,作為荷蘭文化遺產戰略的一部分,致力于其組織的認證過程[36]。通過分階段工作、使用成熟的檢驗工具 scoremodel、數據認可印章(Data Seal of Approval,簡稱DSA)、DIN 31644《信息和文件——可靠數字檔案的標準》等相關指南的荷蘭語翻譯、對DSA認證持有機構的調研分析等對多種認證方法的平衡使用來推進該項目,使得荷蘭數字資源長期保存的工作更具專業性。

PID和數字資源長期保存社區合作的路線圖試圖厘清長期保存的數字對象生命周期對PID所標識的實體和描述元數據有何影響、PID如何幫助長期保存、長期保存如何幫助PID更好地處理科研數據等[37]。荷蘭的一個研究團隊嘗試通過提高文化遺產機構對PID的重要性認識、提高內容管理系統中PID的使用,以便將PID作為訪問數字文化遺產對象的途徑,這樣既解決了唯一標識符的問題,又可解決資源訪問鏈接的長期有效性[38]。

法國國家圖書館的數字資源長期保存同樣起步很早,2007年即開始建設遵循OAIS模型理論的用于法國文化遺產的長期保存的系統。起初,該系統準備以AIP的形式進行生命周期進行管理,然而在10年的項目實踐中,真正遭遇了數據更新問題時,這一想法被證實是不切實際的[39]。通過實踐和研究,他們提出一系列改進方式,比如在SIP階段就盡可能詳細描述清楚,以便進行數據跟蹤管理的工作人員可以明確區分某一次的數據修正究竟僅僅是元數據調整還是需要重新打包整個信息包等。對信息包的后續版本的管理,類似于風險管理,對長期保存系統非常敏感。避免信息的流失、對數據內容豐富性的新需求、對存儲的持續的資金投入等,都事關整個生命周期的管理。這些問題很難在項目建設伊始就得到答案,需要在實踐中不斷完善。

對于個人創作者而言,計算能力和數字工具的快速發展為他們提供了嶄新的創新領域,但快速變化的環境也給這些創作者帶來了新的威脅。如果完成項目的時間超過了操作系統或軟件所能支持的時間該怎么辦?個人創作者或者小型研究團隊如何確保自己的研究成果在5年,或者25年后依然可用?在伊利諾伊大學厄巴納-香檳分校從事信息技術和服務的Dena L. Strong通過對幾位個人創作者長期跟蹤訪談,對數字資源長期保存推薦建議與實際項目需求的差距進行比較評估[40]。軟硬件供應商在升級過程中丟棄的一些向后兼容特性使得很多數字媒體創作者在遷移項目時會有信息遺失?;谠朴嬎?、虛擬化的模擬仿真環境或許能解決這一版本兼容性問題。

3 結 語

日本曾經申請了2011年iPRES大會的主辦,但由于當年3月發生的東日本大地震無法如期舉行,于是就由新加坡接手舉辦了當年的會議,所以也是一番周折之后,iPRES會議首次在日本舉辦,會議組織者借此機會向全世界長期保存領域的研究者展現了日本在長期保存方面的實踐,尤其是游戲產業方面的獨到經驗。會議主辦方的安排充分展現了日本細致的文化,年會像是數字資源長期保存領域從業者的一個大聚會,處處可感受到溫馨、熱絡。

從會議報告交流中看到,一方面是富有實踐經驗的團隊對于數字資源長期保存的反思和理論反哺,另一方面,從個人數據、科研數據,到社交媒體、游戲等流行文化,新興的應用領域不斷豐富長期保存的覆蓋范圍。作為一項復雜且艱巨的活動,長期保存在面對新的問題、挑戰時仍在不斷發展。iPRES大會作為長期保存領域學術水平最高的盛會,提供給研究人員一個交流、分享的平臺。

猜你喜歡
數字資源研究
FMS與YBT相關性的實證研究
基礎教育資源展示
遼代千人邑研究述論
一樣的資源,不一樣的收獲
視錯覺在平面設計中的應用與研究
EMA伺服控制系統研究
資源回收
答數字
資源再生 歡迎訂閱
數字看G20
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合