?

大數據時代檔案數據質量控制:現狀、機制與優化路徑

2022-03-29 13:42周林興林凱
檔案與建設 2022年2期
關鍵詞:質量優化大數據時代

周林興 林凱

摘 要:檔案數據是大數據時代經濟社會發展的重要信息資源,進行檔案數據質量控制研究有助于促進檔案治理能力現代化的提升。通過調查分析可知,檔案數據存有政策法規缺失、數量巨大結構復雜、數據實踐處于起步階段等現狀?;诂F狀特征構建了檔案數據質量控制機制:數據監督管控機制、技術保障機制、質量評估機制,并提出增強檔案數據質量控制頂層設計,筑造檔案數據質量技術保護屏障,構建檔案數據質量評估方法體系等優化路徑。

關鍵詞:大數據時代;檔案數據;數據質量控制;質量優化

分類號:G273

Quality control of archival data in the era of big data: Current situation, Mechanism and Optimization path

Zhou Linxing, Lin Kai

( School of Cultural Heritage and Information Management Shanghai University, Shanghai 200444 )

Abstract: Archival data is an important information resource for economic and social development in the era of big data. The research on archival data quality control will help to promote the modernization of archival management ability. Through investigation and analysis, it can be seen that there are some current situations in archival data, such as lack of policies and regulations, huge quantity and complex structure, data practice in the initial stage and so on. Based on the current characteristics, this paper constructs the archives data quality control mechanism: data Supervision and control mechanism, technical guarantee mechanism and quality evaluation mechanism. Meanwhile it proposes to strengthen the supervision and control of archival data quality, building technical guarantee barriers for archival data quality, construction of archives data quality evaluation method system and other optimization paths.

Keywords: Big data era; Archival data; Data quality control; Quality optimization

1 引 言

大數據時代,隨著檔案管理數字轉型不斷推進及數據處理技術應用推廣,檔案數據管理逐漸成為檔案工作的新常態。然而,檔案部門仍然存在嚴重的重數量輕質量的管理思想,數據污染、數據異構、數據安全、數據孤島等問題突出。[1]究其原因,主要在于檔案數據質量控制缺失,難以適應海量檔案數據管理需求?,F階段,迫切需要開展關于檔案數據質量控制的研究,實現檔案數據規范化、標準化管控,推動檔案數據朝著善治方向發展。

檔案數據屬于檔案信息資源范疇,具備檔案的基本屬性,既包括檔案部門已經掌握的各類數字化檔案資源、電子檔案等,還包括具有長久保存價值但還沒有納入檔案部門保管范圍的數據,以及檔案管理業務過程中產生的各類數據等。[2]檔案數據質量控制,即在檔案部門主導下聯合業務部門、數據管理部門、檔案外包機構等,在相關法律法規、標準規范指引下,采用一定手段對處在形成、運行、傳輸、保管、利用等過程中的檔案數據進行管控,使其保持穩定的質量效果,符合檔案工作需求。

學界對檔案數據質量控制研究已有初步探索,主要集中于三個方面。一是對檔案數據質量控制的認知。檔案數據質量控制是檔案規范管理的基礎,[3]是大數據時代維護檔案數據質量的關鍵,要采取一定的方式和手段加以優化。[4]二是從頂層設計上提出檔案數據質量控制的規范。從構建檔案部門數據治理權責體系著手,明確各部門的權責,[5]重視檔案數據治理中的質量問題,制定檔案數據質量標準和管理制度,維護檔案數據質量。[6]三是根據可能出現的數據質量問題提出對應的技術措施。如面對數量巨大、類型眾多的檔案數據,可構建檔案數據基因系統,促進大規模檔案數據的融合與共享,[7]亦可將檔案數據進行語義化重組,使得大量參差不齊的數據能夠有效組織。[8]同時,在面對眾多異構檔案數據時,應探索使用開源類軟件工具,將異構數據轉化為同構數據,[9]從而保障數據質量??梢?,檔案數據質量控制已成為大數據時代構建檔案數據治理體系的重要組成部分,但是,現有研究主要從分析檔案數據質量的內涵和提升其質量的路徑等方面出發,未對其現狀和機制進行研究。因此,本文希望構建一套合理的檔案數據質量控制機制,并提出優化路徑,以期全面維護檔案數據質量。

2 大數據時代檔案數據質量控制現狀分析

2.1 檔案數據政策法規制度缺失

政策法規制度是維護檔案數據質量的重要保障。新修訂的《中華人民共和國檔案法》第三十五條提出:“保障電子檔案、傳統載體檔案數字化成果等檔案數字資源的安全保存和有效利用?!笨梢?,檔案數據質量控制在宏觀層面已經受到關注,但是,在微觀層面上,目前配套的政策法規制度尚未完備,現有的政策標準(如表1所示)主要局限于系統規范、數據存儲等方面,而對其形成、傳輸、運行、保管、利用等各方面的規范存在缺失。

2.2 檔案數據數量巨大結構復雜

大數據時代,檔案工作數字化轉型加速升級,文件“單軌制”持續推進,檔案數據呈現出數量巨大、結構復雜的特點。一方面,檔案資源總量迅速膨脹。據統計,2020年全國各級國家綜合檔案館館藏電子檔案存儲容量達1387.5TB,其中,數碼照片390.2TB,數字錄音、數字錄像523.5TB。館藏檔案數字化成果更是達到19588.5TB。[10]檔案數據的快速增長給檔案管理、利用工作帶來巨大挑戰,但當前,檔案數據化卻主要依靠人工方式完成,[11]技術水準較低,管控難度極大,容易造成檔案數據錯誤。另一方面,與傳統環境下檔案數據較為單一的結構相比,大數據時代的檔案數據產生環境呈現網絡化、數據化的特征,大量非結構化、半結構化、結構化甚至異構數據融合共存,[12]易造成數據管理標準不一致、格式不兼容等問題,導致檔案數據質量下降。

2.3 檔案數據實踐處于起步階段

檔案數據化的持續推進倒逼實踐部門改善管理理念、更新數據處理技術,但是,檔案數據實踐尚處于起步階段,技術應用尚未成熟,實踐部門之間缺乏有效聯動,檔案數據質量控制效果甚微。一方面,檔案部門依然更多地將關注點放在檔案數據的數量增長上,越來越多的檔案館館藏檔案數字化程度可達到較高水平,但是,檔案部門對其館藏數字資源的管理大多只停留在簡單的組織、檢索、利用層面,[13]未能對其進行深度的數據挖掘、數據審查及安全維護等操作。另一方面,館藏資源呈現出孤立、碎片化的管理格局,易造成“數據壁壘”“數據孤島”等質量問題。如大連市在民生檔案數據資源整合共享方面,其戶籍檔案與大連檔案部門的檔案是分散管理、各自為政的,“數據孤島”現象嚴重,未有做到有效的整合與共享。[14]

3 大數據時代檔案數據質量控制機制

檔案數據質量控制應立足數據生命周期過程,綜合應用標準、技術、主體協同等手段保證檔案數據在整個生命周期中始終保持質量效果穩定,構建檔案數據質量監督管控、技術保障、質量評估等控制機制。

3.1 檔案數據監督管控機制

應對檔案數據管理各個環節制訂對應的標準規范,形成有效的監督管控機制,確保檔案數據始終保持真實、可靠、規范、可控的特征,方可滿足檔案工作和用戶利用的需求。

(1)前端標準規范的嵌入機制。依據檔案數據質量管控要求,把相關的標準規范嵌入文件的形成過程,以便從源頭出發,形成完備的檔案數據來源管控機制。一是檔案部門需要明確檔案數字化、數據質量管理要求,制訂前端控制階段檔案數據識別、數據檢測、數據清洗、數據分類、數據錄入、數據標引、元數據封裝等標準規范,形成有效的規范機制管控來源端的檔案數據質量。二是依據標準規范制訂實踐指南,設計數據核驗計劃、行動方案、監控手段,做好檔案數據在生成階段的質量檢測措施,保證檔案數據源頭的準確性、完整性、可靠性。

(2)流轉過程中的高效監管機制。必須采取高效的監管措施,形成有效的監管運行機制,確保檔案數據在傳輸、保管、利用等流轉過程中的質量,且技術要求等應根據檔案業務工作需求變化而隨時更新。一是要制訂檔案數據變更、加載、格式轉換等技術要求,防范數據錯誤、難以讀取、利用困難等質量問題。二是要制訂檔案數據管控標準,明確數據歸檔原則、歸檔流程、數據存儲規范,掌握其歸檔效率、完整率等。同時,制訂檔案數據定期核驗標準,以便于對保存期的檔案數據定期核驗、復查,使其能隨時提供利用。三是形成合理的檔案數據利用規范,明確數據開放利用范圍、利用流程等,并確保其滿足可機讀、易訪問、能下載等通用技術指標。

3.2 檔案數據技術保障機制

檔案數據的質量由兩方面內容構成:一是檔案數據自身的質量,即檔案數據準確、可靠、可用的程度;二是檔案數據過程質量,即檔案數據在傳輸、存儲、運行、利用等過程中的質量。[15]因此,可從元數據管控、數據運轉過程兩個方面入手。

(1)打造有效的元數據管控機制。有效的元數據管控機制對于保證檔案數據質量具有重要的意義。因此,必須要打造切實可行的檔案元數據管控機制,實現對各元數據名稱和語義的規范化管控,并盡量以已有標準為指南,加深引用、復用的方式構建新的元數據管控機制。如可利用Dublin Core作為基礎復用元數據標準,在復用基礎上結合大數據時代社交媒體檔案數據特征進行元素擴展,制訂完整的社交媒體文件元數據歸檔技術方案,[16]實現海量社交媒體數據的歸檔。

(2)構建科學的檔案數據運轉機制??茖W的檔案數據運轉機制,能克服檔案數據在運行、傳輸、存儲、利用過程中易受到的技術異常、系統漏洞或管理人員操作不當等不利因素影響,[17]保證檔案數據質量在全生命周期中始終處于良好狀態。一是注重數據審查技術的應用,加強對檔案數據的檢測、識別,實現對其質量的全面追蹤。二是更新數據庫技術和存儲設備,促進不同來源、異構、碎片化、離散性強的檔案數據之間的整合集成,使其在存儲過程中保持關聯,確??梢灾貜屠?。如2020年4月浙江省檔案館啟動省檔案數據中心建設,旨在匯集全省開放檔案、民生檔案、專題檔案等資源數據,以及檔案收集管理、開發利用等工作數據,[18]為統籌整合檔案數據、提供高質量數據服務做了充足準備。

3.3 檔案數據質量評估機制

通過構建科學的檔案數據質量評估機制,使其質量效果能滿足多方面需求,從而促進檔案數據服務的優化。

(1)形成實用的評估指標遴選機制。檔案數據質量評估機制科學的運轉,建立在指標合理設計與分布的基礎之上,因此,評估指標的遴選機制必須科學合理,能夠反映檔案數據質量的要求,所遴選的指標應包括但不限于以下:可用性,即檔案數據是否可用,是否滿足可機讀、可運行、重復利用等技術標準;完整性,即檔案數據是否完整,數據實體、數據屬性是否缺失;準確性,即檔案數據所記錄的事實是否準確真實;規范性,即檔案數據的格式、類型、值域等指標是否合規;一致性,即檔案數據是否出現變更;關聯性,即保持檔案數據之間的關聯;可控性,即檔案數據從生成到流轉的各環節都可以得到有效控制。[19]并且,對相關指標具體要求、規范等還必須要形成良好的增減制度,實現評估指標遴選的動態化操作,使遴選機制更加高效與科學合理。

(2)構建多元化評估主體的參與機制。只有構建順暢的社會主體參與渠道,并形成有效的社會主體參與機制,檔案部門才能充分調動與借助社會力量,助推檔案數據質量評估機制順利實現。一是主動強化與立檔單位、技術部門、大數據管理部門等組織機構的協同聯動機制,從實際出發,評估檔案數據質量是否滿足需要。二是檔案部門可基于自身網絡基礎設施,打通與社會公眾的交互渠道,收集其利用檔案數據的體驗感受,形成良好的反饋機制,并根據公眾的反饋建議改善數據質量,確保檔案數據服務的優質性。如美國國家檔案館(NARA)分別建立了與政府、社會資本和公眾的合作機制,[20]有效促進了多元主體共同參與檔案數據質量控制。

4 大數據時代檔案數據質量控制優化路徑

4.1 加強檔案數據質量控制頂層設計

檔案數據質量監督管控等標準規范的制訂需要立足于國家層面的頂層設計,對此,可通過推進檔案數據質量控制走進法律視野,制訂檔案數據質量控制戰略規劃等方式,增強頂層設計,為檔案數據質量控制的具體實踐提供綱領性指導。

(1)推進檔案數據質量控制走進法律視野。一是需要在法理層面進一步明確檔案主管機構對檔案數據的監督管控職責,精確劃定檔案數據保密、開放共享以及用戶群體在維護數據完整與安全方面必須履行的責任和義務。二是應在法律上明確檔案數據質量控制應達到能夠有效保障數據質量、數據安全的效果,切實改變檔案部門“重數量,輕質量”的管理思想,關注檔案數據的生命周期過程,確保其生命周期各階段能凸顯自身的價值,成為社會運轉的決策依據。

(2)制訂檔案數據質量控制戰略規劃。一是檔案部門需要完善現有的檔案數據質量控制戰略規劃,增加檔案數據權益維護、檔案數據服務平臺建設規劃等方面的內容,為微觀層面標準規范的制訂和完善提供方向引導。二是應該充分考慮到不同數據資源的特點,明確檔案數據管理發展方向,制訂統一的戰略,充分保證數據質量。如美國國家檔案與文件署(NARA)對不同類型檔案數據的管理戰略值得我們借鑒。該館在2007年發布了《鑒定政策戰略方向》(Appraisal Policy of the National Archives),其附件二《對特定類型的文件的特殊考慮》[21]中對不同類型的檔案數據管理做了特別說明。

4.2 筑造檔案數據質量技術保護屏障

大數據時代,檔案數據質量需要更為先進的技術保障。在對檔案元數據的管控中,應遵從元數據管理規范,采用對應技術進行元數據管控;面對檔案數據生命周期各階段的質量問題,可開發多類型的數據審查類、保管類管理工具全面維護其質量效果,從而構成堅實的檔案數據質量技術保護屏障。

(1)拓展技術應用深度,強化元數據技術運用。大數據環境下,檔案元數據管控需要具備完善的拓展功能以滿足海量數據描述需求,并能對其進行實時捕獲。一是可應用元數據自動生成技術,通過爬蟲工具對網頁資源的時間戳、文件類型、URL、MIME等信息進行捕獲,并解析HTML網頁源代碼獲取標簽信息,從而實現海量元數據的管理。[22]如希臘網頁歸檔項目中對網頁和錨文本的關鍵詞進行自動抽取,形成分類集群,實現了大量網頁數據的歸檔,有效維護了數據質量。[23]二是可探索應用開源技術開發元數據管理工具。美國地質勘探局在其官網上推薦了數據管理、元數據創建等工具,并公布了可供下載的鏈接等,[24]我國檔案部門可借此鏈接積極訪問,利用其公開的源代碼和技術架構,開發自己的開源類元數據管理工具。

(2)擴展技術應用廣度,豐富檔案數據管理工具類型。檔案數據在整個生命周期過程中易受到多種復雜因素的影響,單一的技術難以全面保障數據質量效果,應針對各階段檔案數據質量維護的實際需求,開發相應的管理工具。歐美國家在檔案數據管理工具的開發上具備較為成熟的經驗,可借鑒參考。如在Planets計劃支持下,歐盟各國開發了格式識別、數據庫存檔、硬件仿真器[25]等具備數據審查和保存管理功能的數據管理工具,對檔案數據在傳輸、運行和存儲階段的質量效果起到了較好的維護作用。再如加拿大溫哥華數字檔案館集成了檔案網絡存儲Archivematica、檔案利用AtoM、檔案數字鑒證BitCurator三類數據管理工具,且都是運用開源技術開發,可直接通過網絡下載,[26]我國檔案部門亦可體驗。

4.3 構建檔案數據質量評估模型與平臺

檔案數據質量評估的順利開展可借助評估模型和平臺優勢,設計可行的評估方法。一方面,可利用國際數據管理協會(DAMA International)提供的數據管理成熟度模型,根據模型評估優勢,結合檔案數據質量評估指標,設計評估方案;另一方面,構建交互平臺,確保多元主體有效參與檔案數據質量評估工作。

(1)應用數據管理成熟度模型。一是利用模型評價優勢,促進檔案數據質量評估模式化。檔案部門可根據評估工作的實際需求,單獨或混合使用該類模型,并結合其框架體系開發檔案數據質量評估模型,形成評估工作開展的固定模式。二是利用模型優化功能,推動檔案數據質量的持續提升。檔案部門可利用成熟度模型評估檔案數據管理現狀,分析檔案數據在不同階段應達到何種質量水平,從而促進其質量提升。如可將檔案數據評估維度包括的完整性、準確性、規范性、一致性、關聯性、可控性等指標與CMM的五個成熟度等級(初始級、重復級、已定義級、可預測級和優化級)相結合,分別描述不同等級應達到的數據質量水平,[27]以此作為衡量檔案數據質量評估的標準方法。目前,國內外已有多組數據管理成熟度模型,該類模型不僅能對數據管理現狀進行評價分析,而且還可以提供改善策略,[28]檔案部門可參考利用。

(2)開發功能完善的交互平臺。多元主體參與到檔案數據質量評估中需要以交互平臺為渠道,讓其可以跨越時間、空間的限制,將檔案數據利用體驗和改善意見反饋給檔案部門。構建交互平臺,一是要注重提升平臺服務的響應性。要在平臺中設置數據請求功能,同時還應實現及時答復各主體所給予的反饋意見的功能,并告知用戶數據質量提升的改進意見、優化進度等。二是開通平臺的眾包功能,發動社會力量積極參與,利用群體智慧完善數據質量提升方案。如“盛宣懷檔案抄錄項目”構建了完善的數據眾包平臺,平臺中設置了反饋、幫助[29]等數據請求功能,具備及時響應性,為抄錄項目的順利開展起到了極大的幫助。

5 結 語

大數據時代,檔案數據在數量、來源、類型、結構的變化發展,使之面臨的數據質量問題日益嚴峻。檔案部門應放眼檔案數據的整個生命周期過程,全面考慮其質量問題,完善檔案數據管理的各類法規政策,制訂具體的管理制度,借助先進的數據管理技術,開展檔案數據質量控制研究,有效維護檔案數據質量水平,從而不斷滿足檔案工作需要。

*本文系國家社科基金項目“國家大數據戰略背景下檔案數據質量優化控制研究”(項目編號:21BTQ016)的階段性研究成果。

注釋與參考文獻

[1]倪代川,金波.數字記憶視域下檔案數據治理探析[J].檔案管理,2021(01):41-44.

[2][12]金波,添志鵬.檔案數據內涵與特征探析[J].檔案學通訊,2020(03):4-11.

[3]陳慧,羅慧玉,陳暉.檔案數據質量要素識別及智能化保障探究——以昆柳龍直流工程項目檔案為例[J].檔案學通訊,2021(05):49-57.

[4]于英香,張雅頡.“檔案參與”科學數據監管:緣起、現狀與動因[J].檔案學研究,2021(02):104-110.

[5][28]劉越男.數據治理:大數據時代檔案管理的新視角和新職能[J].檔案學研究,2020(05):50-57.

[6]常大偉,潘娜.檔案數據治理能力的結構體系與建設路徑[J].浙江檔案,2020(02):27-29.

[7]趙生輝,胡瑩.檔案數據基因系統:概念、機理與實踐[J].檔案學研究,2021(01):40-48.

[8]夏天,錢毅.面向知識服務的檔案數據語義化重組[J].檔案學研究,2021(02):36-44.

[9]何思源,劉越男.科學數據和科研檔案的管理協同:框架和路徑[J].檔案學通訊,2021(01):49-57.

[10]國家檔案局政策法規司.2020年度全國檔案主管部門和檔案館基本情況摘要(二)[EB/OL].[2021-08-06]. https://www.saac.gov.cn/daj/zhdt/202108/6262a796fdc3487d93bf a7005acfe2ae.shtml.

[11]趙生輝,胡瑩.“檔案數據化”底層邏輯的解析與啟示[J].檔案學通訊,2021(04):20-27.

[13]趙躍.大數據時代檔案數據化的前景展望:意義與困境[J].檔案學研究,2019(05):52-60.

[14]吳黎明.大連市民生檔案數據整合利用問題研究[D].大連理工大學,2020.

[15][17][19]金波,楊鵬.大數據時代檔案數據治理研究[J].檔案學研究,2020(04):29-37.

[16]曾薩,黃新榮.我國社交媒體文件存檔元數據方案構建[J].圖書館學研究,2020(20):58-66.

[18]浙江省檔案館.浙江省檔案館啟動省檔案數據中心 建設[EB/OL].[2020-04-14].http://www.zjda.gov.cn/art/ 2020/4/14/art_1229005493_42564205.html.

[20]白文琳,安小米.政府電子文件協同管理:美國經驗及其啟示[J].檔案學通訊,2020(04):103-112.

[21]NARA.Appraisal Policy of the National Archives[EB/ OL].[2021-05-08].https://www.archives.gov/records-mgmt/ scheduling/appraisal _ga=2.69520656.122467392.1620376251-856513955.1620376251.

[22]王蘭成,劉曉亮,黃永勤.檔案社會化媒體信息整合中元數據構建與集成技術研究[J].檔案學研究,2019(05):102-107.

[23]Grotke A,Jones G.Digiboarda:tool to streamline complex web archiving activities at the Library of Congress[C].10th International Web Archiving Workshop(IWAW10),2010.

[24]United States Geological Survey.Data Management[EB/ OL].[2021-05-09].https://www.usgs.gov/products/dataand-tools/data-management.

[25]姚飛,姜愛蓉.歐盟長期保存項目Planets的體系與特點[J].現代圖書情報技術,2010(02):12-16.

[26]范冠艷.基于實體檔案館信息化的數字檔案館建設實踐探究——對溫哥華市檔案館數字保存項目的實地調研[J].檔案學研究,2018(05):129-134.

[27]吳錦池,余維杰.圖書館數據治理成熟度評價體系構建[J].情報科學,2021(01):65-71.

[29]張軒慧,趙宇翔,宋小康.數字人文類公眾科學項目持續發展階段的公眾參與動因探索——基于盛宣懷檔案抄錄案例的扎根分析[J].圖書情報知識,2018(03):4+16-25+77.

猜你喜歡
質量優化大數據時代
基于“互聯網+”的學生頂崗實習管理平臺的開發與應用
大數據時代下計算機信息處理技術的應用
大數據時代背景下高職院校宣傳思想工作的思考與實踐
大數據時代下圖書館的服務創新與發展
大數據時代高校學生知識管理
從“數據新聞”看當前互聯網新聞信息傳播生態
建筑暖通安裝工程的施工管理
市政雨水管道施工質量通病淺析
垃圾發電廠防雷接地設計質量優化措施
小兒頭頸部CT檢查技術優化研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合