?

關聯數據質量詞表及其應用研究*

2019-01-15 11:12賈君枝
數字圖書館論壇 2018年12期
關鍵詞:詞表關聯定義

賈君枝

(中國人民大學信息資源管理學院,北京 100872)

語義網技術的發展推動關聯數據集不斷出現,關聯開放數據云(linked open data,LOD)項目2018年6月的數據集已達1 224個,鏈接數16 113個[1]。隨著數據集的增長,數據的重用、消費不斷發生,而數據質量在一定程度上會影響用戶的使用效率,判斷數據質量成為數據消費之前的一個重要決策,數據質量評估應運而生。由于不同的評估主體參與、采用的評估指標體系差異,單個機構的評估結果并不完全可信,而且這些評估結果并沒有伴隨數據集而存在,導致用戶獲得質量評估數據的難度增加。因此,有效地記錄數據質量的不同維度信息,調動多個機構參與到數據質量評估建設中,對于數據消費者而言將可能獲得各個層面的數據質量信息,為其數據集的選擇判斷以及對于數據發布者及開發者的信任度提供充分的數據支持。因此有效地描述數據集在不同階段產生的各種類型的數據質量信息,對于數據生產者、開發者、消費者各個主體而言,都具有重要價值。

基于此,2004年2月W3C專利政策運營小組編制數據質量詞表,并由Web最佳實踐工作組發布數據。該詞匯表旨在使發布、交換、消費高質量元數據變得更為容易,能夠記錄數據各個生命周期階段關于數據質量的元數據信息,以幫助用戶進行有效的選擇與判斷。本文旨在研究不同參與主體可能產生的數據質量信息,通過數據質量詞表來客觀地記載這些信息,以形成關于數據質量事實鏈,實現數據的追蹤與利用。

2009年,Berners-Lee[2]提出關聯數據的“五星標準”,旨在提高關聯數據質量。隨后Hoxha等[3]提出“綠色關聯數據”的原則,魏來等[4]基于“綠色關聯數據”總結出包括內容、表述、系統與應用的關聯數據質量標準總框架。德國萊比錫大學Zaveri等[5]提出針對關聯開放數據云圖的數據質量評估框架。王振蒙等[6]利用RDF詞匯、URI有效性等指標對5家國家圖書館發布的圖書關聯數據集進行分析和評估。Wei等[7]認為目前缺乏基于數據質量詞表的數據集質量標注工具的系統研究,提出可視化用戶接口以實現對數據集的質量標注??梢钥闯?,關聯數據質量評價日益得到重視,但如何有效地描述數據質量評價結果并未在相關研究中提及。

1 不同參與主體所涉及的數據質量分析

數據集的數據質量形成源于不同主體的共同參與,這些參與主體有數據提供者、數據質量評價者、數據消費者。除這些主體外,數據質量形成還依賴于一定的數據質量政策與法律。

1.1 數據提供者

數據提供者指收集、發布數據的機構,負責數據的更新與維護管理,旨在提高其聲譽及社會參與度。數據提供者作為數據來源機構,由于各機構所提供的數據量較大且結構各異,對數據本身的理解、描述存在偏差,所發布的數據源可能存在不一致、相互矛盾及沖突。顯而易見,關聯數據同一般數據相比,具有自身的特點,其質量主要取決于數據提供者,質量層面包含的主要內容有數據集元數據信息(數據集的大小、發布機構、主題等)、數據模型(類、屬性定義)、數據格式、數據發布狀況(如發布時間、更新頻率、是否接受用戶修改等)、數據獲取方式等。

1.2 數據質量評價者

數據質量評價者對所發布的數據集進行評價,獲得的評價結果可以為數據消費者提供選擇參考。通常數據質量評價者選擇要評價的數據集須依據一定的數據質量評估體系,對各指標進行量化計算以獲得可信度高的結論。數據質量評價者包括第三方評價機構、個人,通過對各類數據集的評價打分、排名,旨在獲得高質量的數據集供用戶選擇使用。評價過程中,選用不同的數據質量評估體系決定評估的結果。ISO/IEC 25012將數據質量分為內在質量和系統依賴質量兩大維度[8],共包括15個指標。內在質量有準確性、完整性、一致性、可信度、現時性,系統依賴質量有可檢索性、準確率、保密性、效率、遵從性、可用性、可理解、可追蹤、可攜帶、可恢復性。針對關聯數據的數據質量評估體系,目前較權威的是Zaveri等[5]提出的指標體系,且將其分為存取性、內在性、上下文、表示四大維度。存取性包括可用性、授權、鏈接、安全性、性能,內在性包括語法驗證、語義準確、一致性、簡潔性、完整性,上下文包括相關性、可信度、可理解性、及時性,表示包括簡潔性、互操作性、可解釋性、可視化。

1.3 數據消費者

數據消費者不僅瀏覽數據,而且貢獻、提供質量反饋。他們可以編輯數據,實現數據的糾錯及其更新,有助于數據的維護;此外,他們也可對數據提供評論、標注。通過有效的反饋環節使數據質量趨于完善。數據消費者是關聯數據集的最佳實踐者,作為數據集的使用對象,他們有權且最有資格對數據質量進行評價監督,通過對數據質量反饋信息以保證數據質量處于不斷上升狀態。有效地設置由數據消費者參與的關聯數據質量反饋環節,采用多手段積極倡導消費者參與,及時地搜集用戶反饋信息,將有助于關聯數據的質量提升。

2 數據質量詞表的框架結構

關聯數據集自身并不包括對其數據質量的描述,有效地記錄不同主體所參與的數據質量活動,將成為獲得數據質量、追蹤數據質量的重要依據。為保證描述記錄的可理解性、可操作性,需要制定專門型詞表對其表示。因此,W3C的Web數據最佳實踐工作組于2016年正式發布數據質量詞表(data quality vocabulary)[9],其有機地記錄數據的評估過程及其結果,反映了用戶反饋。

2.1 數據質量詞表的特征

2.1.1 數據目錄詞表的擴展

數據目錄詞表(data catalog vocabulary,DCAT)作為網絡數據目錄的互操作詞表,旨在實現不同格式的數據共享與交換[10]。DCAT主要用于表示政府數據目錄,定義了3個基本類,即目錄、數據集、發布方式。目錄定義了目錄名、發布者、時間、地點、語種、所包含的數據集,數據集定義了數據集名稱、發布者、關鍵詞、描述、時間、地點、語種,發布方式定義了數據集的授權、存取URL、類型、格式、大小。DCAT詞表對數據集的基本發布狀況進行準確且較全面的描述,為數據質量詞表的制定奠定了基礎。但數據質量詞表只側重于對數據質量進行描述,關于描述對象數據集本身則應用DCAT詞表,其所定義的數據質量類與DCAT詞表中的目錄、數據集、發布方式息息相關,實際是對數據集的質量元數據進行描述。

2.1.2 數據質量描述框架的確立

數據質量描述詞表提供了數據質量描述框架,定義了數據質量描述中所涉及的類、屬性、實例,構建了不同數據集質量描述的概念模型,為基于數據質量的各種應用提供可能。從其描述內容看,定義了數據質量評價對象、評價所采用的指標體系、評價結果值、評價政策及遵循的標準、用戶反饋等,對數據質量評價過程及評估方法進行準確記載,并明確各個實體類間關系,以鼓勵不同人員參與數據質量評價,全面地反映評價者的觀點、評注及其相關證據。這些有助于幫助數據消費者進行選擇判斷。但是,其并不關注數據本身的質量問題,不對數據質量進行評價;其旨在實現用戶及機器對這些質量數據的解讀,有助于用戶對數據集進行標注、評價、比較、選擇,追蹤數據質量的動態變化狀況,為后期數據集成應用提供參考。

2.1.3 重用其他詞表

數據質量詞表構建并不是從零開始,而是在充分吸收現有多個詞表的基礎上發展而來,以實現最小成本構建。各個詞表共同表述數據集質量信息,相互補充構成對數據集質量活動的完整描述。因此,除了定義自身特定的類及屬性(命名空間定義為dqv),其重用了其他本體的類及屬性作為描述構成。重用的本體有數據目錄詞表(DCAT)、都柏林核心元素集(DCMI)[11]、數據集使用詞表(DUV)[12]、簡單知識組織系統(SKOS)[13]、數據起源(PROV)[14]、Web注釋詞表(OA)[15]、ODRL詞表[16]、數據立方體詞表(QB)[17]等。數據目錄詞表用于定義數據集的特征信息,明確數據集對象。都柏林核心元素集用于描述通用類型的數據,如數據集的標題、數據標準。數據集使用詞表描述了消費者關于數據集的使用經驗、引用及其反饋信息,定義了評價反饋、使用、使用反饋、使用工具等基本類。數據起源描述了數據集產生、修改、擁有及其他影響的元數據,定義了實體、活動、代理3個基本類,用以追蹤對數據集所產生影響的人員、活動及變化,如數據質量標準與評估體系之間的使用及生成關系采用此定義。簡單知識組織系統定義了共享與鏈接知識組織系統的模型,提供了知識組織系統中概念及概念之間關系、不同詞表映射的表示詞匯。ODRL詞表旨在發展促進開放式國際政策語言表述,支持發布、分配、消費內容、應用及服務中數字資產的透明且創新式使用;涉及政策類型,允許、禁止的職責行為,所扮演的功能角色、數字資產關系。Web注釋詞表定義了有效表達標注行為的互操作框架,用來描述關聯數據環境下用戶對網絡數據的評注行為,客觀記錄評注人對評注對象所實施的評論、選擇等活動。數據立方體詞表用于交換及共享統計數據及元數據。

數據質量詞表只定義了自身的核心類(如質量評估、質量標注、用戶質量反饋、數據質量元數據),其他類都來源于其他詞表。同時其將核心類通過子類、子屬性關系與其他詞表建立聯系,如數據質量標注類放于OA詞表的標注類下,評估的結果放于QB的數據集類下,這些為實現多個詞表的互操作提供了可能,旨在充分發揮數據網絡的價值。

2.2 數據質量詞表的結構

數據質量詞表實施的評估對象是數據集,主要記錄對數據集所開展的質量評估、標注、元數據等一系列質量管理活動。

2.2.1 數據質量評估

數據質量評估需要明確所制定的數據質量政策、采納的數據質量標準及其所應用的數據質量評價指標體系。數據質量政策指導數據質量活動,為其提供行動準則,通常包含目標、背景、范圍、角色及職責、政策聲明及定義。數據質量標準是保證數據質量管理活動具有可控性的重要手段,旨在形成跨國家、組織的統一性數據質量管理方法,以實現數據存儲、傳遞和共享,促使各評估機構遵循統一的數據質量評估標準,在一定程度上降低數據質量評估成本。數據質量標準通常定義滿足數據質量需求的一系列特征,對其進行解釋說明并分層展示,實際上為數據質量評價提供指標體系。數據質量評估是依據數據質量政策及標準而實施的評估過程,以明確獲得評價結果,評估過程涉及評估對象、評估指標(定義數據結構)及結果值。數據質量詞表定義了3個基本大類,即質量政策(dqv:QualityPolicy)、標準(dcterms:Standard)、評估(dqv:QualityMeasurement)。評估指標體系又細分為3個子類:類(Category)、維度(Dimension)、指標(Metric),類劃分為若干維度,維度下細分為若干指標。

2.2.2 數據質量標注活動

標注是創建不同資源之間的關聯行為,數據質量標注旨在表達數據資源與資源的關系信息,一個完整的標注情境包括標注者、標注對象、標注行為、標注內容、時間。標注對象實際為標注目標,標注內容稱為標注主體,表達對目標的標注內容。標注行為包括評價(評語、評級)、標簽、收藏、描述、提問、回答、識別、分類、描述、編輯、聯接、加亮等活動。數據質量標注描述了數據質量認證及反饋信息,包括數據質量認證、用戶質量反饋。ISO在ISO/IEC指南2中將質量認證定義為第三方依據程序對產品、過程或服務符合規定的要求給出書面保證(合格證書)[18]。數據質量認證是第三方對數據質量符合質量標準給出書面保證,包含數據質量標準體系和數據集質量認證。數據質量認證將數據集與證書之間建立關聯,數據集稱為對象,證書稱為主體,通過評估過程建立兩者聯系。用戶反饋是識別用戶需求、評估用戶滿意度、發現質量問題的重要方法[19]。用戶質量反饋從用戶角度反映對數據集的滿意程度,通過用戶參與來提供數據質量,包含用戶、反饋方式、反饋內容。反饋方式來自標注行為類型,有評級、評語、提問、分類、描述、編輯等;反饋內容涉及內容主體及所提及對象。數據質量詞表定義了數據質量標注類(dqv:QualityAnnotation),其劃分為兩個子類,即質量認證類(dqv:QualityCertificate)、用戶質量反饋類(dqv:UserQualityFeedback)。

2.2.3 數據質量元數據

數據質量元數據描述了數據質量的基本信息,有助于用戶迅速獲取數據集的基本質量信息,指導用戶進行查詢及使用。數據質量元數據已成為數據質量的基本構成,包含數據源本身、數據質量認證、政策、數據集的評估活動、標注的記錄。數據質量詞表定義了質量元數據類(dqv:QualityMetadata)。

如圖1所示,描述完成這3個基本活動后,則構建類之間的關系,形成數據模型[9]。

圖1 數據質量詞表的數據模型

3 數據質量詞表的RDF描述應用

應用數據質量詞表可以準確地實現對數據質量評估、標注及元數據信息進行描述,據此用戶或機器可以及時獲取數據質量信息,為數據的消費及再利用提供依據。BNB是大英圖書館發布的RDF/XML格式的關聯書目數據集,其包含圖書、期刊、報紙等圖書館收藏的資源。大英圖書館的BNB數據集作為較早發布關聯書目集的國家機構,成為許多機構所選用的數據集評價對象?,F選用其圖書子集進行RDF描述,利用一定的評估指標及其用戶標注行為對其進行綜合評價,以展示該數據集部分質量情況。

3.1 數據質量評估的RDF

當前選用Zaveri等[5]提出的指標體系(https://www.w3.org/2016/05/ldqd,命名空間為ldqd)對BNB數據集(http://bnb.data.bl.uk)的圖書子集進行評估,對可用性指標進行評估,結果表明該數據集URL可以被訪問。

3.2 數據標注的RDF

用戶對BNB的圖書子集的可用性進行評級,給予四星級分值。

3.3 數據質量元數據的RDF

對大英圖書館的圖書數據子集進行的評估及其標注活動的元數據信息進行描述。

通過對該數據集的質量評估過程的描述,可以清晰地展示其評估中所采用的指標體系及其評估結果,并充分地表示了用戶所參與的評估活動類型及其標注內容,這些有助于數據消費者在后期選擇使用該數據集時,形成基于數據質量評估活動的一系列準確決策。

4 結語

隨著開放關聯數據集的增長,數據質量成為消費者關心的重要問題。本研究對影響數據質量的各種活動進行闡述,深入地對W3C發布的數據質量詞表的特征進行細致深入的分析,并對其RDF應用場景進行說明。隨著該詞表的不斷普及應用,越來越多的機構及用戶參與到數據質量的相關描述中,在未來將極大地推動數據質量的提升,真正發揮數據價值作用。

猜你喜歡
詞表關聯定義
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
“一帶一路”遞進,關聯民生更緊
奇趣搭配
智趣
敘詞表與其他詞表的互操作標準
成功的定義
修辭學的重大定義
山的定義
國外敘詞表的應用與發展趨勢探討*
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合