?

檔案機構開放檔案數據的實踐策略研究

2023-07-18 10:05代林序熊小芳陳淑涵王思琪
檔案與建設 2023年5期

代林序 熊小芳 陳淑涵 王思琪

摘 要:文章通過分析美國國家檔案與文件署在政府數據開放運動背景下進行檔案數據開放行動的階段性歷程,從中解析出其實踐策略為:面向數據開放管理數據資產、打造綜合治理的數據開放平臺、以用戶為中心優化開放數據以及兼顧開放與隱私建立數據安全保障?;诖?,結合對我國實踐現狀的分析,從數據開放政策、數據資源建設、數據治理結構和數據用戶服務四個方面提出相應的實踐策略,以期為我國檔案機構參與開放數據提供參考。

關鍵詞:檔案數據;檔案開放;政府數據開放

分類號:G279

Research on the Practical Strategies of Archival Institutions in Opening Archival Data: Taking the National Archives and Records Administration (US) as an Example

Dai Linxu1, Xiong Xiaofang1, Chen Shuhan1, Wang Siqi2

( 1. School of Public Administration, Sichuan University, Chengdu, Sichuan 610064; 2. Management School of Tianjin Normal University, Tianjin 300387 )

Abstract: This article analyzes the history of the National Archives and Records Administrations archival data openness initiative in the context of the government data openness movement, and its practical strategies: managing data assets for data openness, building a comprehensive governance data openness platform, optimizing open data with a user focus, and establishing data security safeguards that balance openness and privacy. Based on this, and combined with the analysis of the current situation of relevant practices in China, the corresponding practical strategies are proposed in four aspects: data openness policy, data resource development, data governance structure and data user service, in order to provide references for the participation of archival institutions in data opening in China.

Keywords: Archival Data; Archival Opening; Government Data Opening

隨著數據在社會治理、科學研究、商業創新等活動中的價值日益凸顯[1],政府數據開放運動在全球范圍內迅速展開。檔案主管部門、綜合檔案館等檔案機構作為政府數據開放運動的數據貢獻方與專業行動的引領者,也在積極探索將檔案以數據形式向社會公眾開放,即檔案數據開放行動的實踐路徑。例如,《全國檔案事業發展“十三五”規劃綱要》提出“要制定檔案數據開放計劃,落實數據開放與維護的責任”[2]。目前全國各地在開放檔案數據方面有著一定規模的實踐,如北京、浙江、廣西、山東等地區的政府開放數據平臺上,已發布了數量可觀的檔案數據集供公眾下載和使用,但檔案機構參與政府數據開放仍存在多重挑戰,如何從檔案機構的職能出發平衡開放與安全,構建參與政府數據開放的系統行動策略,充分釋放檔案數據價值仍有待進一步探索。

理論層面上,有關政府數據開放背景下檔案機構進行檔案數據開放的研究主要聚焦于三個方面:一是明確政府開放數據與檔案機構的關系,研究基于實踐經驗的梳理,分析政府數據開放與檔案工作的共通性,認為檔案機構作為公共管理機構和服務機構,是數據開放與維護的責任主體[3-4];二是探析檔案機構參與政府開放數據的行動路徑,相關研究以實踐調查為依托,圍繞主體協作與定位、頂層設計與規劃、資源數據化與開放等維度展開探討[5-7];三是融合政府數據開放理念與方法,推動檔案管理及檔案事業發展轉型與提升,如在數據化及開放數據的背景下實現檔案服務創新[8]、檔案數據價值實現[9]及檔案數據資源的重新整合[10]等。然而已有研究多聚焦于具體且復雜的數據開放活動,對于檔案數據資源的開放機制是什么、應如何構建等問題,尚需進一步研究。美國國家檔案與文件署(以下簡稱“NARA”)自2010年起就積極探索檔案數據開放工作,結合美國開放政府、數字政府、開放數據等戰略目標推出階段性發展計劃,在制定檔案數據開放方案、創新檔案數據開放工具、促進檔案數據開發利用等多方面展開規?;袆?,取得了顯著成效。由此,文章以NARA為例,通過網站調研、政策文本分析等方法對其行動內容進行梳理,分析其實踐策略,以期為我國檔案機構參與開放數據提供參考。

1 NARA檔案數據開放的基本行動內容

1.1 面向開放的數據資產管理

面向數據開放的資產管理要求機構將數據與其表示形式分離,構建具備互操作性和開放性的數據資產體系,NARA已有的相關行動體現在以下兩方面:

(1)夯實開放數據資源

其一,充實數據資源。NARA通過梳理內部資源、收集用戶反饋、定期更新數據資產等多種方式厘清并持續豐富機構數據資產。在內部資源方面,nARA梳理了包括在線網站Archives.gov上可用的資源和該機構在線公共訪問系統上的歷史數據集,對館藏資源中可開放且有開放價值的數據資產進行梳理與統計,做到“應開盡開”,盡可能擴大開放清單中的數據資產數量。在用戶反饋方面,NARA考慮了包括美國公眾與內部員工在內的開放數據使用者的建議。對外設置了用戶建議反饋渠道;對內鼓勵員工對數據資產進行內部提名,并設置“公開提名”以識別機構內部通信網絡上的數據資產。在數據更新方面,NARA通過本機構的資本規劃和投資控制流程,定期識別與信息系統相關的新數據資產,促進數據資產的定期更新,為數據資產數量與質量的可持續性提升奠定基礎。[11]其二,豐富數據資產元數據。NARA主要從增加元數據字段與更正數據描述兩個方面來豐富資產元數據,以促進數據資產可發現、可管理。一方面,NARA收集用戶對于NARA數據資產元數據的補充及糾正意見,豐富公共資產元數據的描述;另一方面,NARA與數據資產所有者合作,了解數據資產更為具體的內容,為相關數據增加關鍵字標簽、更正數據的描述以及添加當前通用的其他元數據字段,豐富數據資產元數據并提升數據質量。

(2)優化開放流程

其一,基于利用需求確立開放優先次序。為了促進機構數據資產的充分利用,NARA強調通過收集用戶反饋的方式,明晰用戶對數據內容、數量、質量等多方面的需求,以此確定不同數據資源的開放次序。具體而言,NARA主要通過網上互動的方式獲取用戶的回應。例如,NARA在博客上發表了關于確立優先開放數據集的意見征詢,獲得了部分公眾與內部員工的回應;其后又在社交平臺上發布相關帖子,得到了許多用戶關于數據資產的需求意見[12];最后在綜合用戶需求與機構數據資產具體情況的基礎上,確定了機構將會優先開放的高價值數據集。其二,開發輔助性工具深化數據開放。借助Web API這一輕量級、網絡友好的開放數據工具,NARA對當前在線公共訪問系統進行了現代化改造,確立了至少兩個面向用戶的系統,并根據高價值數據集開發了相應的API。如,NARA開發API用于查詢國家檔案館目錄數據集,該數據集包含所有可用的檔案資源描述信息、數字檔案資源及其元數據、所有NARA網頁和公眾參與痕跡(標簽、轉錄和評論等)。[13]開發人員可以基于此界面更加高效地篩選數據子集并創建應用程序,同時還將大大提高NARA與維基百科、美國數字公共圖書館等第三方平臺共享政府檔案數據的能力。

1.2 打造綜合治理的數據平臺

(1)建立數據治理架構

為了應對開放數據涉及的各要素、各流程、各維度的綜合復雜性,NARA重視對數據治理架構的建設,建立了數據治理委員會(Data Governance Board),以指導機構如何將數據作為戰略資產進行管理,使得用于數字服務和數據管理的資源配置達到最優。其涉及開放數據的職能包括:確定NARA數據治理和管理的定義與框架,并提供相應的培訓和指導;指導并開展數據開放、利用服務的建設;圍繞檔案數據開放、利用,信息技術的創新應用等主題提出法律、道德等層面的建議。

(2)積極應用可共享的數據基礎設施

由于分散化數據資產管理與設施采購給機構帶來了資金虧損,開放數據平臺運轉的穩定性受到了極大影響。為了維持開放平臺的穩定性,NARA整合了機構內的移動設備及無線服務協議,在數據治理委員的監督下計劃與政府機構采取統一的共享服務。[14]由此,NARA作為公共部門在建設在線平臺Archives.gov的同時,也持續向Data.gov等政府數據開放平臺提供開放數據集,設備和協議在政府機構范圍內的統一也有助于數據平臺上的統一發布與維護。

1.3 對接用戶優化數據開放服務

(1)立足用戶需求打造高標準數字服務工具

一方面,了解用戶需求,確定提供數據服務的優先取向。NARA在網站上推出了一個“開發者”網頁,這一互動社區鼓勵使用者就NARA的開放數據、開源和API行動及作用等進行對話。此外,NARA開辟了多種吸納用戶意見的渠道,包括opengov@nara.gov電子郵件信箱、NARations博客以及GitHub賬戶反饋庫。另一方面,把握移動服務趨勢,為用戶提供便捷的數據服務。為了快速向移動平臺過渡,NARA啟用了至少兩項面向用戶的優先服務,包括本館網站和在線公共訪問系統(Online Public Access)的移動端優化,涵蓋當前離線提供及在線提供的服務。為了便于用戶的數據獲取,擴大數據的訪問和使用,NARA充分利用移動設備特征和網絡技術的潛力,確保所有域都可以在移動設備上輕松訪問和使用。

(2)分析用戶反饋以提升數據服務質量

NARA基于用戶的反饋信息,全方位優化開放數據服務。一方面,應用來自網站分析和在線調查等來源的用戶數據,創建了代表檔案數據用戶的八個角色:好奇的探索者、教育者、檔案管理員、歷史愛好者、博物館參觀者、科研人員、退伍軍人。[15]這些角色不僅可以幫助NARA了解用戶的需求和偏好,還推動了NARA員工與用戶產生更多共鳴。在進行用戶角色開發研究時,NARA的數據來源總體包括以下內容:預見調查反饋(角色、目標、挫折、開放式反饋)、分析(行為、人口統計、技術)、傳入的電子郵件、個人的采訪、以前為在線平臺Archives.gov重新設計開發的角色、社交媒體(人口統計、人氣、評論)。另一方面,確定科學的用戶反饋分析方法與舉措:NARA充分使用來自網絡和社交媒體分析、在線用戶滿意度調查以及來自用戶電子郵件的數據;采訪經常與以上用戶類型互動的工作人員,以獲得他們的見解和反饋。

2 我國檔案機構數據開放的行動局限解析

政府數據開放運動持續推進發展,我國檔案機構也投身于數據開放運動中。在實踐層面,檔案機構向地方政府開放數據平臺提供開放數據已取得部分可觀的成績。經過初步調查,我國31個省級行政區域(港澳臺除外)中已有15個省級檔案機構參與并在政府開放平臺中發布和更新數據。對我國檔案機構開放數據現狀進行分析,發現仍存在以下問題亟待解決:

2.1 檔案數據開放政策有待明確

檔案數據開放作為復雜命題需要完善的政策體系,從而為檔案機構指明行動方向,并引導其最大程度地發揮檔案資源在數據開放運動中的價值。一方面,檔案數據的開放以檔案開放為基礎,目前我國有關檔案開放的政策已較為成熟。2022年7月1日,國家檔案局發布了最新的《國家檔案館檔案開放辦法》,就檔案開放的目標、原則與要求,開放程序與實施細則等內容提出了明確規定。然而,檔案以數據的形式開放有著怎樣的行動要求、檔案數據開放的前端管理工作應如何調整和優化、檔案數據開放與政府數據開放如何協同推進等具體問題還需要針對性的政策闡釋。另一方面,檔案工作融入國家大數據戰略,推進檔案數據治理,促進檔案管理現代化等在現有政策中已有明顯趨勢,但主要集中在數據歸檔、數據管理等環節,而如何推動檔案數據資源的開放和利用、加快檔案開放工作的轉型升級等還需要進一步部署。

2.2 檔案數據治理體系尚需健全

系統的檔案數據治理體系是保障檔案機構在數據開放運動中正確發力的重要基礎。然而作為政府開放數據行動中重要的參與方與管理方,檔案機構未能很好地發揮自身優勢,提供管理經驗,具體體現在部分省級檔案局和檔案館之間分工不明確,導致平臺上的檔案數據處理長期處于停滯狀態,阻礙了檔案數據開放的發展進程[16],從而出現地區之間開放程度參差不齊,開放數據范圍局限于省市或部門之間,難以滿足用戶的檔案利用需求等狀況。因此,檔案局館之間如何建立高效的合作關系、檔案機構與政府數據開放部門之間如何形成良好的協作模式、如何根據檔案資源和數據開放的特質建立健全明晰的治理體系等有待進一步解決。

2.3 檔案數據資源建設仍需推進

目前在政府數據開放運動中,我國檔案機構是重要的數據提供方,而在數據層面,開放數量和質量是兩個核心評估指標。[17]數量上,各檔案館向政府數據開放平臺提供的數據集數量受各地檔案數據化建設程度影響較大,開放檔案數據集的數量差異也較大,其中廣東省開放的數據集最多,目前可檢索到129個檔案數據集,湖南省最少,僅能檢索到一個數據集。質量上,目前我國檔案館提供的開放數據集更多的是機構自身的業務管理類數據,檔案數據資源開放較少,部分地區發布了與民生密切相關或具有地域歷史文化特色的館藏檔案數據,但總體數量相對不足[18],且存在部分檔案館提供的數據格式單一,難以滿足用戶多樣化需求的問題。因此,持續關注并推進檔案數據資源建設,探究人工智能、OCR識別等多元數字技術在檔案數據化領域的應用,是加強檔案數據開放力度,提升檔案數據開放質量的重要途徑。

2.4 檔案數據利用服務尚待開發

檔案數據的開發利用服務有助于加深用戶對于檔案數據的理解、滿足用戶的利用需求、充分挖掘開放檔案數據的價值。目前檔案機構主要通過政府數據開放平臺發布檔案數據集,但大部分平臺都缺乏以檔案機構為數源單位開發的應用成果,也無法了解這些檔案數據具體的利用方向[19],因此檔案數據的價值何在,檔案數據可以應用于哪些領域,用戶利用檔案數據的方法和工具有哪些等缺少具體的示例,有待開發針對性的檔案數據利用服務。檔案服務的準備方面,目前檔案數據的提供還未深度契合用戶的需求,檔案資源的利用主體及需求方向還未充分納入檔案館數據開放的計劃中;由于數據的非人工識別性,用戶對于數據的充分理解及開發利用存在一定的難度,如何針對不同層次的用戶提供針對性的配套服務還需要進一步思考。

3 我國檔案機構數據開放的行動方向展望

3.1 綜合全程規劃的數據開放政策部署

政策導向和規劃引領歷來是我國檔案工作前進的重要動力[20],但國家層面尚未提出針對檔案數據開放的行動計劃。NARA對接國家開放政府及數字政府戰略提出開放數據要求,以體系化的政策統籌與推進數據開放,我國同樣要關注政策的重要性。政策內容體系的建設可從如下幾個方面展開:首先,應在宏觀層面明確檔案數據開放為檔案開放工作要務,將檔案數據開放作為重點工作之一。其次,為實踐確立細化的行動依據。應依據開放數據的特點,制定檔案數據開放行動計劃,覆蓋數據組織與管理、數據開放與利用、數據安全與質量維護等方面的行動規范或辦法。例如,檔案數據的開放鑒定、開放流程和權限、開放范圍的劃定等環節應綜合考慮數據開放與安全等因素,制定符合檔案事業發展方向的規范。最后,落于每一個檔案機構的具體行動中,就開放數據主體、應開放的數據、開放的時間節點等形成具體的行動計劃。

3.2 強化數據資源的基礎建設

檔案數據資源的建設是檔案數據開放的先決條件。參考NARA的實踐,結合我國現有的實踐基礎與戰略規劃,檔案機構的數據資源建設可設定為:一方面,加快檔案數據化建設,擴大檔案數據資源來源。一是館藏紙質檔案與數字化資源的數據化。由于數據化工作量較為龐大,檔案機構可優先將涉及民生、歷史等社會利用價值較高的檔案進行數據化,滿足公眾需求。二是原生數據態檔案的移交接收。當前我國有關電子文件及其元數據的歸檔已有相當程度的規范,但針對數據態檔案的接收尚缺少針對性的規定。隨著數字時代的發展,檔案原生數據資源將逐步成為檔案數據資源的主力軍,需確保原生數據的保存規范。此外,應考慮未來檔案數據來源的擴展,將數據環境下政務活動中生成的各類業務數據等納入檔案數據歸檔范圍,豐富檔案數據來源。例如,機關內部的檔案機構可輔助大數據局的工作,主動參與到單位的數據管理工作中,將檔案管理要求嵌入數據管理及業務活動前端,明確數據生成管理、價值鑒定、長期保存的規范和方法。另一方面,提升檔案開放數據的質量。我國綜合檔案館利用政府數據開放平臺開放的數據類別及質量參差不齊,主要體現在公眾需要的數據資源開放程度不足、開放數據集元數據提供有限等。因此,檔案機構應積極響應國家的開放政府行動,持續更新檔案數據資源及業務類管理數據,為公眾挖掘檔案價值及辦理相關檔案業務提供便利,并自覺接受公眾監督;還應加強檔案數據建設,通過不斷豐富元數據、嵌入新興技術等方法,將館藏檔案資源建設成條目豐富、開放形式多樣的高價值開放數據集,進一步推動檔案社會價值的實現。

3.3 面向開放數據的治理結構搭建

檔案數據是政府數據治理的重要內容,檔案機構是重要的數據治理部門之一[21],建立檔案數據治理體系是大數據時代的應有之義。如同NARA在內部成立數據治理委員會,我國可采取如下行動:一方面,檔案機構應建立內部的數據治理結構,設定明確的數據治理目標。需確立數據治理權責,設置數據治理機構或協作組織承擔領導統籌、監督指導、落實執行的數據治理工作責任,厘清檔案數據治理的定義和內容,制定數據管理制度和標準,以規范具體行動;確定檔案數據治理的內容,整合處在數字化、數據化各進程中的檔案數據資源,結合檔案數據結構化、半結構化的特性及檔案數據的內容價值設計管理及開發方案。另一方面,檔案機構需融入政府數據開放的整體行動,與政府數據開放部門建立協作關系,服務于國家大數據治理。應厘清政府數據開放與檔案數據開放、檔案開放的關系,確定檔案機構在政府數據治理中的角色定位,積極參與數字政府、數字社會、智慧城市等政府數據治理實踐,以此嵌入到政府數據治理結構中;此外,還應對接檔案開放與政府數據開放之間的方法和要求,在政府數據開放的行動框架下結合檔案資源的特點、融合檔案管理理念梳理針對性、具體化的治理內容,加強檔案開放與政府信息公開工作的銜接、深化政府開放數據資源整合。

3.4 響應多元需求的數據用戶服務

在開放檔案數據的過程中不斷響應用戶需求,是促進數據開發利用的重要途徑,NARA的做法于我國而言具有一定借鑒意義。一方面,應多維度調研用戶的數據利用需求,依據用戶的需求制定檔案數據開放計劃。在調研內容層面,應了解用戶的檔案利用偏好與興趣方向以作為數據優先開放的參考;對政府開放數據平臺上已有的檔案開放數據服務展開調查,了解用戶對檔案開放數據的滿意程度,遇到的問題及改進建議,幫助檔案館更加精準地構建檔案數據開放平臺。在調研方法層面,檔案館可采用“定量”的方法對用戶線上線下的利用情況、瀏覽足跡進行追蹤,得到用戶的利用偏好與興趣方向;采用“定性”的方法向用戶發布調查問卷、開展線下訪談或者設計用戶調查類游戲[22],在保證隱私安全的基礎上獲取用戶的社會身份、興趣偏好、對檔案利用服務的滿意程度及改進建議等。由此在方法與內容多維度結合的基礎上構建檔案機構開放數據的用戶結構,并在此基礎上進行需求預測,制定檔案機構的數據開放規劃。另一方面,應關注多元化用戶的重點需求,并對其重點需求給予精細化、智能化的回應。據調查,我國的檔案用戶按照職業性質可被劃分為技能型、研究型、藝術型、生產型、服務型和其他六大類。其中研究型和服務型用戶占比最高[23],檔案館在開展數據建設時,應重點關注這兩類用戶的數據需求,對民生類檔案及編研類材料應考慮優先數據化并開放。服務方面,檔案館可參考“分眾服務”的模式,將尊重檔案用戶多元化的社會身份、專業背景、檔案利用需求作為檔案開放數據創意服務的重要突破點。[24]

4 結 語

本文以美國國家檔案與文件署為例,分析其檔案數據開放的發展歷程及各階段行動的特點,探究了檔案機構參與數據開放行動的實踐策略,并結合當前現狀從政策、資源、平臺、用戶四方面提出在政府開放數據背景下我國檔案機構進行開放數據行動的啟示。然而,以NARA為例的探索僅為共通性難題的解決提供參考,落實到我國政府數據開放背景下檔案機構的數據開放行動中,還需具體考慮我國的政策環境、檔案資源數據化水平、開放數據平臺建設狀況等,通過深入調查研究,對如何推出系統策略進行進一步探討。

注釋與參考文獻

[1]王海洋.政府數據開放場景下個人信息匿名化研究[J].情報理論與實踐,2022(12):84-91,137.

[2]國家檔案局印發《全國檔案事業發展“十三五”規劃綱要》[EB/OL].[2022-08-19].https://www.saac.gov.cn/daj/xx gk/201604/4596bddd364641129d7c878a80d0f800.shtml.

[3]董芳菲.開放數據環境下新西蘭檔案館的角色定位及其啟示[J].檔案與建設,2018(10):24-28,23.

[4]肖秋會.俄羅斯聯邦檔案署的開放機制建設與開放數據方案[J].檔案與建設,2017(4):21-23,35.

[5][19]唐長樂,王明明.我國檔案數據開放研究——基于政府數據開放平臺的調查[J].浙江檔案,2022(1):44-47.

[6]何玉顏.檔案部門參與政府大數據治理的路徑研究[J].浙江檔案,2018(8):23-25.

[7]許晶晶.檔案部門參與開放政府數據運動的現狀、問題及策略[J].蘭臺內外, 2020(9):8-9.

[8]萬玉俠.政府數據開放型檔案服務創新策略的研究[J].現代商貿工業,2018(34):39-40.

[9]董聰穎,金軼瑩.政府數據開放背景下檔案數據價值實現研究[J].山東檔案,2020(5):7-10.

[10]季文菲.政府數據開放共享背景下的檔案信息資源整合策略[J].蘭臺世界,2018(3):41-44.

[11][12][14]National Archives. Digital Government Strategy – Milestones [EB/OL]. [2022-09-18]. https:// www.archives.gov/digitalstrategy/milestones.html#anchor2.2.

[13]National Archives. Available Datasets from the National Archives [EB/OL].[2022-09-18].https://www.archives. gov/open/available-datasets.html.

[15]National Archives. Digital Personas [EB/OL].[2022-09-18]. https://www.archives.gov/digitalstrategy/personas.

[16]楊藝璇. 綜合檔案館檔案數據開放對策研究 [D].西安:西北大學,2022.

[17]鄭磊,關文雯.開放政府數據評估框架、指標與方法研究[J].圖書情報工作,2016(18):43-55.

[18]唐長樂,武亞楠.國外檔案數據開放研究——基于政府數據開放平臺的調查[J].檔案管理,2022(5):109-112.

[20]趙躍,邢琳悅,段先娥.檔案數據化的困境分析與策略研究[J].蘭臺世界,2021(4):33-38.

[21]劉越男.數據治理:大數據時代檔案管理的新視角和新職能[J].檔案學研究,2020(5):50-57.

[22]蘇君華,牟勝男.用戶畫像視域下檔案館精準服務:內涵、機理及實現策略[J].檔案學通訊,2020(2):58-66.

[23]閆靜,朱琳,張臻.檔案用戶利用需求及對策研究——基于各級國家綜合檔案館用戶利用需求問卷調查[J].檔案管理,2022(2):93-97.

[24]李子林,王玉玨.檔案多元論視域下檔案文化創意服務研究[J].檔案與建設,2017(12):16-20.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合