?

數據開放共享中數據質量治理研究

2023-05-30 06:24夏童
計算機應用文摘 2023年8期
關鍵詞:數據質量

夏童

關鍵詞:數據開放共享;數據質量;霍爾三維模型;質量治理

1引言

數據開放共享在一定程度上打破了信息壁壘,促進了信息的共享與交流,推動了知識的有效傳播。數據開放作為數字經濟發展和學術研究的基本要素,對經濟發展和學術研究起著重要的作用,高質量的數據共享是經濟發展和學術研究的驅動力。而在數據開放共享的時代,數據質量問題也成為數據開放共享的阻礙,是影響開放數據及其共享效果的關鍵,越來越受到人們的關注。為了提供高質量的開放共享數據服務,有效享受數據開放共享的成果,數據質量治理問題亟待解決。

國內研究學者對開放數據的研究主要集中于政府開放數據質量研究,熱點主題是評價體系、評價模型、影響因素、控制機制等。比如,申宇[1]、邵艷紅[2]使用文獻調查法和層次分析法構建了包含4種一級指標和12種二級指標的開放政府數據質量評價體系;莫祖英等[3]基于信息質量理論,利用層次分析法構建了政府開放數據質量的模糊評價模型:侯征[4]采用Nvivo軟件編碼分析影響政府開放數據質量的因素,采用網絡分析法和專家調查法來確定數據質量各個評價指標及其具體權重,以此來構建政府開放數據質量評價模型:郝文強等[5]應用比較分析方法研究政府開放數據質量在疫情防控期間的影響因素,研究發現,政策、服務能力、領導動員是核心影響因素:童楠楠[6]研究政府開放數據質量維度,基于數據生命周期理論,分析了開放數據質量在技術層面、流程層面、管理層面存在的問題,并提出建立政府開放數據質量控制機制:王娟等[7]利用演化博弈理論,研究政府開放數據質量在不同的監管情況下博弈雙方穩定的策略和實現質量控制的有效條件,提出建立科學的數據質量評估標準和數據質量過濾機制來提高數據質量控制效率。

國外研究學者對開放數據質量的研究不止集中于政府開放數據,而是拓寬到整個開放數據領域,研究熱點主題有質量評價方法、質量政策、元數據質量、質量度量框架。比如,Nikiforova[8-9]分析了拉脫維亞開放數據質量問題,提出了一種由數據對象、數據質量規范和數據質量度量過程組成的數據對象驅動的數據質量評價方法:Machova[10]為了檢查和比較開放數據門戶的質量,提出了一個基準框架,以評估開放數據門戶的質量:Jantzen等[11]根據公平原則評估透明健康的數據庫的質量和可重用性,研究表面開放數據質量政策的提出可以減少相關因素對開放數據工作的影響:Kubler等[12]認為元數據的質量對開放數據的成功起著至關重要的作用,為了解決對元數據質量多維度的測量和比較,提出開發一個開發數據門戶質量框架,使用戶能夠實時地對開放數據門戶進行評估??傮w而言,數據開放共享中的數據質量問題備受學術界的關注,現有研究從數據質量評價角度、政策影響角度、機制角度出發,缺乏從霍爾三維模型視角對數據質量治理模型進行構建。鑒于此,本文基于數據生命周期理論和數據質量標準,利用霍爾三維模型構建數據開放共享中數據質量治理模型,進而提出相關治理對策。

2相關概念

數據開放共享促進了信息資源的交流與傳播,尤其方便了學術研究者獲取數據和交流科研成果,是資源共享體現。但是,在數據開放共享中,因為數據是可以在網絡上免費獲取的,數據質量會影響用戶的滿意程度,所以數據的質量對開放共享的推動起到了很重要的作用,并且隨著數據開放共享的發展,用戶對數據質量也提出了更高的要求。因此,數據質量治理在數據開放共享效果中起著重要作用。

2.1數據開放共享

現代意義上的開放共享,是指在網絡環境下,個人或機構向社會提供數據、信息或作品,并授權他人免費使用的一種行為[13]。并且,這種開放共享并不等同于OA(Open Access),OA只是開放共享的一種方式。數據開放共享就是在開放共享下所獲得的數據,是可免費使用的。數據開放共享具有以下特征:(1)全面開放性,即面向所有的對象,用戶只要登錄互聯網就可以獲得;(2)免費性,即向用戶免費開放使用,用戶無需支付任何費用即可免費獲取數據或信息;(3)多樣性,即內容和方式的多樣性,數據開放獲取的內容涉及各個領域和學科,以開放出版、開放存取、開放閱讀等方式呈現。

2.2數據質量在數據開放共享中的作用

數據質量在數據傳播的過程中起著非常重要的作用,直接關系到數據傳播的效率和數據價值的發揮。尤其在數據開放共享中,在大量的數據面前,數據進入互聯網的門檻越來越低,數據質量顯得尤為重要。高質量的數據在數據開放共享中,是有價值的信息資源,可以提高用戶的滿意程度,促進數據的交流與傳播,有助于發揮數據真正的價值,從而推動開放共享的進一步實施。而低質量的數據則會增加用戶處理數據的時間,甚至會提供給用戶錯誤的數據,會阻礙數據開放共享有效實施。因此,數據質量在數據開放共享中的作用至關重要,對數據開放共享中數據質量治理的研究具有現實意義。

2.3霍爾三維模型

霍爾三維模型(Hard System Methodology,HSM)是美國系統工程專家霍爾(A.D.Hall)提出的一種系統工程方法論,其內容能直觀地反映系統工程各項工作內容的結構圖[14]。該模型是融入時間維度、邏輯維度和知識維度的三維立體空間結構,具有系統性、綜合性、最優性和程序性等特點,旨在為處理復雜系統工程的運行和管理提供方法論[15]。其中,時間維度是指按時間進行發展的各個工作階段的安排:邏輯維度是指在時間維度上不同階段要進行的工作內容和要依照的思維程序:知識維度是指為完成時間維度和邏輯維度的工作而用的知識。

數據開放共享中數據質量研究涉及數據整個生命周期全過程中數據提供者和數據獲取者的數據處理行為的管理,包含環境、法律、文化等因素,是一個開放的、復雜的系統性問題。因此,對數據開放共享中數據質量治理的分析需要應用綜合、系統的思維模式和方法,與霍爾三維模型的特點和目的相契合。因此,借助霍爾三維模型構建數據質量治理模型具有可行性。

3數據開放共享中數據質量問題及緣由

要深入研究數據開放共享中的數據質量問題,首先要找到其中的數據質量的問題表現,并分析造成數據質量問題的原因,從原因進行分析能更準確地找到數據質量治理的對策。

3.1問題表現

數據質量是指數據在使用過程中滿足特定目的需求的程度[16]。數據質量屬性是數據在某一方面的性質,是數據用途和分類的依據,可以作為衡量需求滿意程度的指標?!秶覙藴驶M織/國際電工委員會(ISO/IEC) 25012》標準將數據質量屬性分為3類:(1)內在的,包含準確性、一致性、可信性、完整性、即時性;(2)系統的,包含可用性、可攜性、可恢復性;(3)內在的與系統相關的,包含可訪問性、兼容性、保密性、效率性、精密性、可追蹤性、易懂性。我國信息技術標準化技術委員會提出的數據質量指標(GB/T36344-2018 ICS 35.24.01) [18]中對數據質量的衡量指標包括規范性、完整性、準確性、一致性、時效性、可訪問性。另外,國外學者認為,為了實現數據使用價值,數據需具有精準性、及時性、關聯性、完整性、可信性和易懂性[19]。

綜合上述對數據質量屬性和數據質量衡量標準,本文認為一般數據質量問題通常涉及數據的準確性、完整性、一致性、及時性、相關性。其中,數據準確性是指數據是真實、可信的;數據完整性是指數據在各個方面都可以足夠支撐完成一個任務:數據一致性是指數據的內容和格式的一致性,前后的內容和格式總是以一樣的方式呈現出來:數據及時性是指數據的新穎性,要隨時更新:數據相關性是指數據對用戶是有所幫助的,與用戶所要找到的數據有所關聯。上述數據質量問題同樣出現在數據開放共享中,因為在數據開放共享中需保證所提供數據的準確性、完整性、一致性、及時性、相關性。不過,數據開放共享中的數據質量問題還會涉及數據的開放可訪問性[20]。數據的開放可訪問性是指數據是否能夠被免費、公開的方式使用。

根據上述數據開放共享中數據質量的標準和要求,本文認為開放數據中數據質量問題主要表現在以下方面:數據準確性問題,數據錯誤、編碼不準確[21]、數據污染[22];數據完整性問題,數據不完整、數據缺少索引[23]:數據一致性問題,數據不一致[24]:數據及時性問題,數據及時性差;數據相關問題,數據存在關聯錯誤[25]、數據存在信息孤島[26];數據可訪問性問題,缺少開放共享平臺。

3.2緣由分析

通過分析以上數據開放共享中的數據質量問題的表現,結合數據生命周期全過程,可以將造成數據質量問題的緣由歸為以下3個因素:法律法規因素、組織管理因素和技術與平臺因素。

3.2.1法律法規因素

完備的數據管理法律規范是保證數據質量的根本,法律法規不僅對數據質量起到規范的作用,而且具有指導作用。從目前國內對于數據質量治理方面的法律法規來看,主要有以下2個方面。(1)沒有明確的關于開放數據數據質量方面的法律?!吨袊茖W院科學數據管理與開放共享辦法》是用來指導和規范中國科學院內的工作人員與單位的數據管理與開放共享行為,但是這是針對的某一組織或機構,其他機構很少有這樣的規定。而且,這也只適應于固定的單位或個人,缺乏覆蓋性和普及性。這種面向單一對象的法律規定,在某個領域內的開放共享的數據質量可能會得到保障和重視,但是畢竟涉及的地方和影響力較小,所以對于整個數據開放共享環境下的數據質量問題還是存在的。(2)沒有建立數據質量控制體系。數據質量控制體系是度量數據質量的依據,是保障數據質量的有效法律途徑。但是,我國目前尚未建立關于數據質量的控制體系,數據質量缺乏統一的控制標準。雖然目前我國頒布了《科學數據管理方法》,但其中也未涉及數據質量控制體系來對數據質量進行度量,并且關于開放數據中的個人數據保護問題方面的法律也未完善。

法律法規是一切行為和活動的標準和指南,也是整個數據開放共享中的數據質量保障的標準和基礎,沒有明確的法律規定的數據質量管理就像沒有方向舵的帆船,既沒有明確的方向,也沒有具體的數據質量度量標準,是造成數據開放共享中數據質量問題的根本原因。

3.2.2組織管理因素

數據質量問題除了初始數據輸入錯誤,大多數的數據質量問題還是在于數據的組織管理方面。特別是在數據開放共享時代,數據是免費開放的也是免費獲取的,難免會造成數據質量管理失誤。這種管理失誤一是由于數據量過于大,組織管理工作量較大且不方便,缺乏統一領導與相關部門協調:二是數據質量的判斷標準不一,無法對數據進行統一明確的管理,缺乏數據質量管理標準:三是數據質量審核不嚴格,缺乏系統的管理流程:四是數據質量組織管理主體不明確,缺乏相關數據質量管理者。

組織管理對于數據來說至關重要,有序的數據組織管理可以很大程度上提高數據的質量,為用戶提供更好的服務。因此,組織管理因素是數據開放共享中數據質量治理的重要因素。

3.2.3技術與平臺因素

高質量的開放數據既依賴組織文化,也依賴信息技術與共享平臺的支撐和有效利用,特別是在數據提交、存儲、分享、使用和維護等環節上[27]。在目前數據開放共享下,數據質量存在的問題主要是數據在提交過程中的問題、數據分享平臺的問題以及數據維護的問題。數據提交問題是數據在提交的過程中會因為數據格式或數據接口問題可能造成數據的不正確輸入。數據分享平臺主要是指開放共享平臺,該平臺在數據質量、數據更新、數據管理等方面的不足都有可能發生數據質量問題。數據維護問題,因為是數據開放共享中的數據,數據只能由數據產出者上傳到網上,所以關于數據維護問題是由該數據產出者負責還是由數據平臺提供者負責尚未明確。

技術與平臺是數據質量保障的重要支撐,既可以為數據質量提供技術支持,也可以提供分享平臺。好的技術與平臺可以為數據開放共享中的數據質量提供技術保障與環境維護,對于提高數據質量非常重要。

4數據質量治理三維模型與對策

根據上述造成數據開放共享中數據質量問題的原因,結合霍爾三維模型,構建數據質量治理三維模型,并基于此提出相關治理對策。

4.1數據質量治理三維模型

第2節分析了開放數據共享中數據質量治理與霍爾三維模型的契合性,因此從時間維度、知識維度、邏輯維度出發,構建數據質量治理三維模型(圖1)。

從圖1可以看出,邏輯維度是需要在時間維度的基礎上利用知識維度,進行問題形成、優化、解決等一列系統活動。邏輯維度在整個數據質量治理過程中起著關鍵作用,是系統整體治理效果的體現,因此下文主要從邏輯維度出發體現相關治理對策。

4.2數據質量治理對策

根據數據開放共享中數據質量治理三維模型,可見影響治理效果的因素是法律、管理、技術、平臺、環境、文化,并且其中法律、管理、技術、平臺是關鍵性因素,因此將從完善法律規范、加強組織管理、創新技術強化平臺建設3個方面提出對于數據開放共享中的數據質量治理對策。

4.2.1完善法律規范

法律法規在保障數據質量的同時,也可以維護數據開放共享的秩序、作者權益以及數據的安全,進而保障數據質量中推動數據開放共享的有效實施。關于數據開放中的數據質量治理的法律規范,可以從法律的制定與實施2個方面來進行。首先,關于法律制定方面。要制定《開放共享中的數據質量法》,為數據開放共享中的數據質量治理提供法律依據。關于法律制定方面,最重要的一點就是要明確所適用的范圍,即數據質量所指的具體是哪一方面或哪種形式的。關于數據質量方面的法律規定,可以參考美國的“數據質量法”(也稱為“信息質量法”)?!皵祿|量法”雖然不是獨立的法律文件,也不具有法律約束力,但是其中關于數據管理方面還是值得借鑒的。其次,關于法律實施方面。設立專門的實施監管部門,為數據開放共享中的數據質量治理提供行動保障。對于專門的實施監管部門的職責要明確,以保障部門的有效運行。該監管部門不只要對相關法律的具體實施情況進行實時監管,還要對監管過程中發現的問題進行整理,并及時反饋給上級,以便完善相關法律規定。除了對法律的監管,專門的實施監管部門還要對相關法律進行宣傳,尤其是對一些科研人員進行宣傳,普及關于數據質量的相關法律知識,從而更有利于法律的實施。

4.2.2加強數據組織管理

數據開放共享中的數據質量問題,如數據不一致、數據不完整、數據不及時等問題都和數據組織管理有關系,因此為了保障數據質量,必須加強對數據的組織管理。經過上述關于組織管理方面的因素分析,可以從以下4個方面來加強數據組織管理。(1)要建立數據質量治理機構或委員會,明確治理主體的職責和任務。數據質量治理機構主要是對數據組織管理活動進行統一領導與規劃,制定數據質量發展目標與重點,發揮一定的引領與整體管理作用。(2)要明確數據質量的發展方向,制定統一的數據質量標準。標準是對數據質量進行治理的基礎與根本,并為數據質量治理提供了方向和要求。統一數據標準,對于用戶來說可以享受到更優質的服務,可以獲取高質量的信息。同時,激勵科研人員對自身研究成果提出更高的要求,刺激數據供給者提高數據質量。(3)要制定完善的數據質量治理流程與計劃,對數據組織管理的每一步進行明確要求??梢詮臄祿敵銎脚_人手,對數據平臺的數輸入、數據審核、數據檢索、數據呈現等進行嚴格的要求。(4)要明確數據質量治理者。設置數據質量治理師,培養專門的數據質量治理者,任命專業人員對數據質量進行管理,以促進數據質量治理系統化、規范化。

4.2.3創新技術,強化平臺建設

創新數據開放共享中的數據管理技術和加強數據平臺建設,為保證數據質量提供了強大的技術支撐,對數據質量治理起到非常重要的作用。關于技術方面的治理對策,一是要改進數據接口的傳輸技術,保障數據在傳輸的過程中的完整性、一致性。二是要加強對數據識別技術和處理技術的研究。數據開放共享中的數據內容、格式、編碼等形式多種多樣,可能會因為形式的不一致而導致數據不完整,所以要加強對數據識別技術和處理技術的研究。關于平臺建設方面的治理對策,在數據開放共享的環境中,開放共享平臺的出現,促進了數據的傳播與交流。但是,一些平臺因為不完善的平臺運行管理機制導致出現可訪問性問題、產權糾紛問題等。這些問題需要平臺加強對數據的審核和自身的運行管理,以保障數據開放共享中的數據質量。

5結束語

數據質量是數據開放共享中需要關注的重要問題,高數據質量不僅是數據開放共享的推動力,還是保障數據價值和實現開放共享效果的重要基礎。本文分析了數據開放共享中數據質量存在的準確性、完整性、一致性、及時性、相關性、可訪問性問題,得出出現這些問題的緣由主要來自法律法規、組織管理和技術與平臺方面,根據問題來源和數據生命周期理論,借助霍爾三維模型,提出了數據質量治理三維模型。依據該模型發揮關鍵維度的作用,并提出數據質量治理相關對策。

猜你喜歡
數據質量
電子商務平臺數據質量控制系統及仿真模型分析
基于大數據背景下提高供電局數據質量對策分析
強化統計執法提高數據質量
淺析統計數據質量
金融統計數據質量管理的國際借鑒與中國實踐
淺談統計數據質量控制
企業統計工作之我見
統計信用與統計數據質量研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合