?

全球網絡信息存檔:行動全景、基本要素和關鍵問題★

2023-02-05 09:37何露彤林妍歆王春蕾
山西檔案 2023年6期
關鍵詞:信息

何露彤 林妍歆 王春蕾

(中國人民大學信息資源管理學院 北京 100872)

1 引言

網絡信息作為互聯網技術革命中的衍生產物,是人們進行網絡活動的真實記錄,包含文字、圖像、聲音等多種形式,生動直觀地反映了人們的網絡生活。[1]網絡信息具有憑證價值和記憶價值,是一個國家和組織珍貴的數字資產和數字文化遺產;同時,網絡信息資源也是一種動態增長的、易逝的且不可再生的“原生性”網絡文獻,具有易消失、難復原等特性。網絡信息存檔是指在一種“原生性”網絡信息資源的整個生命周期內對其進行有目的的評價、選擇、采集、描述、元數據表示、存儲、發布和維護等一系列工作以確保其當前可用和未來價值增值的管理活動。[2]

當前我國關于網絡信息存檔的研究大體上可分為三類:一是案例類研究。即對美國、英國等國家的網絡信息存檔項目進行成果介紹和經驗總結,分析網絡信息存檔項目的存檔方式、存檔主體和主要功能等,以周文泓[3]等為代表;二是技術類研究?;趨^塊鏈理念及相關技術對資源采集、管理、保存和利用的全流程網絡信息存檔進行分析,旨在增強數據安全性和提高自動化認證能力,以張煒[4]為代表;三是價值類研究。即從價值的來源、屬性和影響等因素出發,闡述存檔網絡信息價值的概念,以胡吉穎[5]、吳碩娜[6]為代表。以上研究成果皆具有啟發意義,但這些研究或著眼于個別國家的單個項目,未從全流程視角形成系統分析;或過多地關注技術本身,而缺少整體性的戰略框架。

基于上述背景,本研究著眼國際知其全貌,立足整體窺其要理,采用網絡調查法展開系統研究,具體來說,項目組于2023 年9 月25 日至9 月30 日開展調查工作,以維基百科的網絡信息存檔行動列表、國際互聯網保存聯盟的成員列表為主要信息來源,并在調查過程中采用滾雪球法擴大收集范圍,盡可能獲得更為完整、全面的網絡信息存檔項目列表。需要說明的是,由于當前全球網絡信息存檔項目中,存檔對象多為網頁和社交媒體,而社交媒體信息歸檔還尚不成熟和普遍,因此,本文所指的網絡信息歸檔主要指向網頁信息存檔;隨后,于10 月1 日至10 月10 日開展資料收集工作,從機構及項目的官方網站、相關新聞及研究報告中摘取項目相關信息,從項目資料的細粒度和完整性出發,以項目實踐效果為基礎、以社會評價指標為依據、以項目的代表性為支撐,進行項目的層層篩選和資料的漸次補充,最終形成來自19 個國家的26 篇項目介紹文檔;最后,于10 月11 日至10 月15 日開展項目編碼工作,依據所獲取的項目文本內容形成全球部分代表性網絡信息存檔項目編碼表、網絡信息存檔行動基本要素編碼表以及網絡信息存檔行動關鍵問題編碼表共三張編碼表。以這些編碼信息為主,本研究嘗試對全球網絡信息存檔行動進行全景描繪,從行動的基本要素和關鍵問題兩個層面歸納其基本要素框架,以此為我國網絡信息存檔行動提出建設性意見。

2 全球網絡信息存檔行動全景描繪

全球網絡信息存檔行動始于1996 年,澳大利亞、瑞典等國家相繼發起PANDORA、Kulturarw3 等項目,以先驅性嘗試拉開了網絡信息存檔系列行動的序幕。此后,瑞典、新西蘭、捷克等國紛紛開啟了本國的網絡信息存檔實踐,網絡信息存檔逐漸從區域性嘗試演變上升為全球共識,行動足跡幾乎遍及各洲。項目組按照項目所屬地區對選取的代表性網絡信息存檔項目進行了編碼,并按開展時間對其進行了排序,形成了全球部分代表性網絡信息存檔項目編碼表(見表1)。

表1 全球部分代表性網絡信息存檔項目編碼表

俯瞰全球網絡信息存檔行動全景,可以從以下三個維度對其進行解析:

首先,從時間維度來看,1996 年—2002 年為萌芽期,盡管少數國家在1996 年開啟了網絡信息存檔實踐嘗試,但其后六年間相關項目零星增長,網絡信息存檔并未引起普遍關注。2003 年—2013 年為快速發展期,2003 年國際互聯網保存聯盟的成立成為促使網絡信息存檔行動高速發展的重要轉折點,探索性實踐的經驗積累與全球范圍內的交流合作使這一時期的網絡信息存檔項目激增,全球網絡信息存檔行動迎來十年發展高峰。2014 年至今為沉淀發展期,這一時期全球網絡信息存檔行動的增長勢頭趨于平緩,但新行動的規劃水平和技術水平均有明顯提升,網絡信息存檔步入智慧存檔新階段。

其次,從地區維度來看,歐洲、北美洲,如英國、美國、澳大利亞等發達國家作為先行者走在前列,亞洲國家如韓國、日本、中國緊隨其后,經濟水平相對落后的非洲、南美洲國家則缺少探索。這種地區分布有其合理性,開展國家網絡信息存檔行動不僅需要完善的網絡基礎設施和充足的網絡信息資源,更因龐大的資料數量要求有強大的資金及技術支持,總體而言對開展國家的網絡發展狀況、經濟實力都有較高的要求。

最后,從主導機構維度來看,全球網絡信息存檔行動的主導機構較為多樣化,涵蓋圖書館、檔案館、政府機構、高校、私人企業等,但國家級的網絡信息存檔行動一般由圖書館主導,或由圖書館和檔案館共同合作主持,這與二者作為公共文化機構的責任和使命相符。

整體來看,歷經數十年的發展,網絡信息存檔已形成全球行動態勢,網絡信息作為記錄時代歷史、構建社會記憶的重要數字資源已然引起了世界各國圖書館及檔案館的普遍關注。

3 各國網絡信息存檔行動基本要素解析

網絡信息存檔行動包含多個流程要素,對其進行解析有助于把握網絡信息存檔各個環節的具體內容及特點,同時促進對網絡信息存檔行動的整體性認知。依據上述所整合的全球部分代表性網絡信息存檔行動的資料,對網絡信息存檔行動的流程要素進行編碼,最終梳理出所選取網絡信息存檔行動的“選、管、存、用”四個流程要素。

3.1 信息選擇

3.1.1 內容選擇策略

信息選擇是網絡信息存檔的首要環節,旨在根據制定的內容選擇策略,采用一定的內容采集方法,對互聯網上生成的網絡信息進行選擇并加以捕獲。網絡信息存檔行動主導機構的不同決定了存檔網絡信息內容選擇策略的差別。其選擇策略主要有以下幾種,一是根據網絡信息的類型進行選擇。如英國議會選擇性捕獲、保存和提供在網絡上發布的英國議會信息,包括2009 年至今的英國議會網站和社交媒體網絡信息。[7]二是立足機構職責范圍進行選擇。如德國網絡服務部門、德國聯邦議院議會檔案部門根據其職責范圍存儲、接收和提供來自議會及其行政部門的值得存檔的文件,包括文件、圖像、視頻記錄等。[8]三是立足國家記憶,對國家域名網站進行廣泛爬網,還會基于重要事件或主題進行選擇性網絡信息收集。代表性項目如英國網絡檔案館,該項目每年至少進行一次英國網站的自動爬取,同時策展人和其他專家還會收集有關特定事件、主題或感興趣領域的網站。[9]

3.1.2 內容采集方法

全球網絡信息存檔項目在內容的采集方法上既有共性又各具特色,具體表現在采集工具的選擇和采集頻率的設定兩個方面。一方面,Heritrix、HTTrack、Webrecorder 軟件是幾個通用使用范圍最廣的采集工具。此外還有一些專門軟件也會被用于存檔項目中,如美國圖書館專門開發的內部工作流DigiBoard 軟件,允許員工選擇網站進行存檔、管理和跟蹤所需的權限和通知、執行質量審查流程以及其他任務[10]。另一方面,采集頻率的確定一般與存檔網絡的更新頻率有關。一般情況下,網絡的采集頻率為每年2—4 次,而對于新聞網絡等更新周期較短的網絡信息,則一般每日或每周采集一次。如日本國立國會圖書館將網絡類型分為國家機關網絡和其他網站網絡,對于前者按月采集,對于后者按季度采集[11]。尤為特殊的是,采集頻率的變更還與存檔網絡的價值評估情況有關,比如美國圖書館會定期對存檔名錄中的網站進行評估,一旦網站的價值被重新評估,其采集頻率也會隨之發生改變。[12]

3.2 信息管理

信息管理是網絡信息存檔的中間環節,旨在通過著錄描述、分類整合等管理手段對網絡信息的內容特征與物理特征加以描述,以確保存檔網絡信息的質量。對存檔網絡信息進行質量管控具有兩方面的必要性:一是網絡信息形成于計算機網絡之中,具有物理結構和邏輯結構的復雜性,存檔主體需要采取專門的文件格式以及元數據管理工具對其進行質量管控;二是網絡信息具有內容動態和更新速度快的特征,其存檔價值的確認和維護存在較大挑戰,存檔主體不僅需要在深入理解其語義及內涵的基礎上加以分類和組織,還需確保網絡信息的真實性固化和有效性保障,以為信息利用奠定良好的基礎。

3.2.1 著錄描述

著錄描述是對存檔網絡信息的內容描述。不同項目采用的元數據標準存在差別。一般情況下,多數項目采用國際通用數字材料或電子文檔著錄規則對存檔網絡信息進行手動著錄。如韓國國家圖書館應用了國際標準格式都柏林核心元數據(DC)的15 個基本元素,對其資源進行元數據著錄[13];日本國立國會圖書館采用NDL 元數據標準[14];澳大利亞圖書館采用MARC 機讀目錄標準[15]。這些國際通用元數據著錄標準的運用,極大地增強了網絡信息的可檢索性和可理解性,同時也提升了系統中數據著錄信息的一致性和共享性。如前所述的描述性元數據通常是手動創建的,而技術元數據一般是在抓取時自動生成的,如美國End 0f Term Web Archive 就借助Internet Archive 經重新配置的內部工具,為館藏6,000 多個網站自動生成了元數據記錄[16]。

3.2.2 分類整合

分類整合是指根據內容主題將存檔網絡信息劃分為不同類別,以方便資源的管理和開發利用??傮w而言,存檔網絡信息的類型劃分充分體現了不同存檔項目所采集網絡內容的豐富性和特色性。比如,英國網絡檔案館將所存檔的網絡信息劃分為藝術與文化、政治與政府、運動與休閑等多個核心主題,在每個核心主題之下又包含若干個子話題[17];澳大利亞網絡圖書館則按照藝術、商業與經濟、教育、政府與法律等主題對信息進行了分類和整合[18];各具特色的分類方式不僅能讓用戶快速把握存檔網絡資源的內容和特色,而且有利于對存檔網絡信息的質量控制,并根據網絡的更新變化情況隨時補充新的存檔網絡信息,以更全面地覆蓋主題網絡范圍。

3.3 信息存儲

3.3.1 存儲格式

存檔網絡信息的長期保存依賴于統一、標準、完整的存儲格式,因此全球網絡信息存檔項目力爭采用最為理想的存儲格式對資源進行保存。WARC 格式就是目前最為普遍的存儲格式,被廣泛運用于多個網絡信息存檔項目中,包括澳大利亞PANDORA 項目[19]、丹麥網絡檔案Netarkivet 項目[20]、捷克網絡檔案Webarchiv 項目[21]等。此外,還有一些項目也會存儲網絡的原始版本,如美國互聯網檔案館利用網絡快照對網絡進行存檔保存[22]。

3.3.2 存儲平臺

網絡信息存檔項目普遍基于項目目標和建設條件,或選擇自行開發網絡信息存檔平臺,或選擇使用合作伙伴、技術公司、國際網絡存檔組織提供的存儲服務,或將二者進行組合使用。自行開發網絡信息存檔平臺的機構,如瑞典Kulturarw3 項目開發了學術期刊數據庫,專用于網絡信息存檔[23];斯坦福大學圖書館將存檔后的網絡信息存儲于斯坦福大學數字存儲庫[24]。而借用其他存儲系統進行資源存儲的項目則更為普遍,如英國網絡檔案館將存檔后的網絡信息存儲于由大英圖書館開發并得到其他英國法定存放圖書館支持的數字圖書館系統當中[25]。

3.4 信息利用

信息利用是網絡信息存檔的最終環節,也是網絡信息存檔的最終目標。存檔網絡信息的利用需要更為重視信息利用的倫理與法理風險,在確保信息的合理利用前提下追求信息利用的共享性和便利性。這是由網絡信息生成主體的多元性所決定的。在互聯網空間中,與信息的生成、管理、處置等過程相關的利益者層層交叉,存在權責不分,利益沖突等情況,加之個人網絡信息的所有權、知識產權、隱私保護等意識的強化,這些都將導致存檔網絡信息的利用更加復雜,存檔主體需要在法律的框架下兼顧網絡信息利用的合法性和合理性,以滿足用戶利用需求為目標豐富信息開發的成果形式和利用形式。

3.4.1 成果形式

根據信息展現形式和平臺的不同,存檔網絡信息的開發利用成果形式主要分為兩種。第一種是面向用戶利用的專門數據集,比如美國國會圖書館公開發布網絡信息存檔衍生數據集,向廣大用戶提供利用[26]。第二種是建設通用型檢索平臺,為用戶提供多個檢索途徑和入口,比如美國斯坦福大學圖書館提供斯坦福網絡檔案門戶網站,支持搜索URL 獲取存檔網站信息[27]。不同的成果形式能夠滿足相應的用戶需求,實現存檔網絡信息價值的最大化,將存檔信息轉變為可供檢索和利用的知識性資源。

3.4.2 利用形式

按照信息開放利用程度的不同,存檔網絡信息的利用形式一共可以分為三類。第一類是開放利用,比如英國議會網絡檔案項目存檔的材料保存在英國議會網絡檔案館 (UKPWA) 中,任何人都可以在線訪問[28]。第二類是提供部分訪問,比如澳大利亞PANDORA項目中一些存檔網絡被禁止公開,如包含隱私信息、有害信息的網絡。用戶對少數主題的訪問受到限制[29]。第三類是不提供開放利用。比如丹麥網絡檔案無法公開訪問[30]。該檔案僅供已請求并獲得特殊許可,將館藏用于特定研究目的的研究人員訪問。

4 網絡信息存檔行動的關鍵問題

4.1 法律

網絡信息的采集與利用觸及知識產權、隱私權等諸多復雜的法律問題,因此網絡信息存檔項目的順利推進離不開法律的保障與支持。目前各國在解決網絡信息存檔所面臨的法律問題上已經探索出了一些可供借鑒的路徑。具體來說,首先在網絡信息的采集上,多數國家會對相關法律如法定呈繳法、版權法、檔案法進行修改,以將網絡信息納入合法收集范圍。如英國在2003 年通過了《法定繳存圖書館法》,將現有的法定繳存立法擴展到包括網站在內的非印刷(電子)出版物[31];美國在2005 年重新修訂了版權法第108 款,將呈繳范圍擴大至在線資源[32]。

其次,在網絡信息的開放利用上,為保護可能包含于網絡信息中的個人或機構隱私信息及版權內容,避免侵權行為,多數存檔機構都對存檔網絡信息的訪問設置了一定限制,其中較為常見的有以下三種。一是對提供信息進行限制,即對存檔網絡信息只提供部分公開訪問,如前文提到的澳大利亞PANDORA項目;二是對訪問場所進行限制,即將對存檔網絡信息的訪問限制于圖書館或檔案館內,如英國網絡檔案館的存檔網絡信息除非獲得了網站發布者的額外許可,否則只能在圖書館實地查看[33];三是對使用目的進行限制,即只允許以研究為目的對存檔網絡信息進行利用,如丹麥網絡檔案Netarkivet 僅供已請求并獲得特殊許可將館藏用于特定研究目的的研究人員訪問[34]。而在此方面,澳大利亞PANDORA 項目的做法值得借鑒,其根據版權的不同對資源的利用設置了嚴格的用戶檢索等級表[35],在版權限制下實現了存檔資源利用價值的最大化。

在確保網絡信息存檔合法合規的基礎之上,對于網絡信息的開發利用,存檔機構既需維護信息所有者利益,又需注重公眾獲取信息的基本權利,可以通過檢索等級表此類更為細致、完善的訪問規定促使網絡信息的價值在法律框架下得到最大程度的發揮。

4.2 技術

技術是貫穿于網絡信息存檔全流程的重要要素之一,作為網絡信息存檔流程順利開展的保障對存檔行動起到根本性支撐作用。目前對于網絡信息存檔行動中的主要技術問題已經擁有了成熟度較高的相應技術工具,按具體用途大致可以分為以下三類:第一類用于網絡信息的采集爬取,如Heritrix、HTTrack 等,其中由互聯網檔案館開發的Heritrix 是應用最為廣泛的網絡爬蟲,可用于選擇型和完整型資源采集;第二類用于存檔網絡信息的瀏覽重現,常用的有OpenWayback、WebRecorder pywb 等,其中WebRecorder pywb 作為國際互聯網保存聯盟建議的OpenWayback 替代工具,能夠準確地重現各類存檔網絡,并可用于創建高保真網絡信息檔案;第三類是既可用于資源采集,又可用于信息呈現的集成性技術工具,如開源工具WebRecorder 就集網絡捕獲與網絡重現于一體,為網絡信息存檔實踐提供了極大便利。此外,目前也已出現幫助組織機構解決網絡信息存檔相關技術問題的外部服務供應商,如英國議會網絡檔案的合作公司Mirrorweb,其為存檔機構提供網絡、社交媒體等網絡信息的存檔及訪問服務,幫助減少機構進行網絡信息存檔的時間及精力成本。

網絡信息存檔的相關基礎性技術工具已較為完備,但仍有一些前沿技術問題需要給以持續關注以在未來予以解決。如在網絡信息的采集上,需提高對動態內容的捕獲能力,解決動態網絡的捕獲問題;在網絡信息的利用上,需實現對存檔信息的深度處理和分析,解決存檔信息的開發問題。

4.3 政策

網絡存檔政策是圖書館、檔案館等機構對網絡資源進行評估與選擇、采集、存檔范圍界定、存儲和組織、質量保證與分析、訪問利用等制定的一系列指導原則、標準規范與戰略目標等[36]。在網絡信息存檔行動中,重視相關政策的制定能夠為各個流程提供實踐層面的指南,提高存檔工作的科學性和規范性。一些國家已經制定頒布了綜合性或專門性的網絡信息存檔政策,用以指導網絡信息存檔的某一環節或多個環節,包括內容選擇、風險管理以及法律問題等內容。比如澳大利亞國家檔案館的政策文本中,分別對宏觀國家級收藏及微觀具體收集資源類別進行了說明;加拿大圖書檔案館的政策文本中制定存檔內容選擇與保存方面的內容;芬蘭國家圖書館將具有長期研究價值的權威出版物及學術資源網站列入網絡選擇范圍當中。

網絡信息存檔作為一項極具復雜性的系統工程,涉及主體眾多,存檔對象多元,需要借助政策力量給予網絡信息存檔行動指導和保護。具體來說,一是要完善政策覆蓋的全面性,即兼顧存檔內容選擇與保存、存檔內容管理與利用以及保障政策三個方面的內容,并且需重視合作保存、預評估與存檔流程、技術選擇、質量管理與評估等方面的政策制定;二是要增強政策內容的特色性,針對國家自身社會和民族的特色制定體現本國、本民族特質的政策內容,在采集范圍與采集方式、采集內容優先權等方面制定相應規定;三是要提升政策制定的平衡性,綜合考慮多重利益相關方的訴求,在保護相關組織或個體信息權益的前提下實現國家數字記憶的長久留存和開發利用,在權利、法律義務、人力配置、合規管理等多個方面制定相應規定。

4.4 標準

網絡信息存檔標準作為網絡信息存檔的前端控制環節,以其規范化、科學化和流程化的特點,為選擇、管理、保存和利用各個項目環節提供了運行依據和實施要求,目前各國網絡信息存檔項目中通用的信息存儲標準為WARC文件格式標準,其是由ISO國際標準化組織于2009年發布的網絡信息資源存檔格式標準,是面向網絡信息資源長期保存領域的唯一文件格式標準[37]。首先,在選擇和采集環節上,WARC 文件格式標準支持對采集資源進行詳細描述、對資源內容進行充分切割、實現外部語義關聯等,同時也便于對資源進行存檔和壓縮。其次,在著錄與整合環節上,WARC 標準基于系統化、科學化的著錄流程,可實現對網絡資源的全方位整合與精準化著錄。如Archive-it 項目采用都柏林核心元數據和WARC 標準對網絡信息資源進行規范化著錄,實現對網絡信息資源文件類型、標題、內容、URL、主題及發布者等方面的全面描述和著錄[38]。最后在保存與共享環節,WARC 標準是網絡信息資源存檔保存標準封裝格式,用于解決存檔資源格式多樣、關聯復雜等問題,有助于網絡信息資源的整合共享和永續保存。目前Archiveit 項目、PANDORA 項目、UKGWA 項目等都應用了WARC 文件格式標準。

雖然WARC 標準能夠對網絡歸檔的前三個環節做出科學評估,并提供可供借鑒和應用的歸檔范式,但在訪問和利用環節中,WARC 標準的應用范圍仍然較為狹窄,主要是由于在訪問和檢索過程中,國際上并未形成具有針對性和適用性的標準,缺少可供遵循和應用的標準化依據。此外,目前在實踐過程中WARC 標準因制定時間較為久遠,內容上呈現出模擬態向數據態轉化的缺位,操作上面臨領域空白和規范不清的困境,亟需圍繞各國網絡信息存檔項目實踐開發和制定更符合時代需求、內容更加健全的網絡信息存檔標準。此外,在存檔主體和存檔對象方面,各國檔案部門除了接收和保管各類網絡信息資源,還應該積極制定相關規章制度和標準指南來規范和監督網絡信息存檔工作。同時,針對存檔對象的不同形態和類型,要給出相應的存檔標準和規范,包括一些可視靜態內容,如文本、靜態圖片等,頁面中的動畫、音視頻等類型的內容的存檔格式也需要規范化[39]。

綜全文所述,網絡信息作為社會知識資源和記憶財富,能夠起到知識賦能和集體認同的作用,為了避免網絡資源的消弭和丟失,開展網絡信息存檔行動,對珍貴網絡資源進行保存、開發和利用具有重要歷史價值和社會意義。限于篇幅,本文只選取了實施效果較好、社會評價較高的網絡信息存檔項目,并未對全球所有國家的網絡信息存檔項目進行詳細描述,但這并不妨礙我們從代表性案例中歸納出網絡信息存檔的基本要素框架和關鍵性問題。當前,我國網絡信息存檔工作大多處于放任自流或各行其是的狀態,基于網絡資源更新快、易消失、唯一性的本質屬性和我國剛剛起步、缺乏經驗的網絡信息存檔行動現狀,學習國外先進網絡信息存檔模式,加快網絡信息存檔行動步伐勢在必行。

(致謝:本文作者感謝中國人民大學信息資源管理學院加小雙副教授對本文的指導。)

猜你喜歡
信息
訂閱信息
展會信息
信息超市
展會信息
展會信息
展會信息
展會信息
展會信息
信息
健康信息
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合