?

我國國家科學數據中心FAIR原則的實踐現狀調查與分析

2023-06-23 13:17李楠楠劉筱敏
圖書與情報 2023年2期
關鍵詞:元數據

李楠楠 劉筱敏

摘? ?要:FAIR原則是規范科學數據管理和促進數據共享的指導原則,調查分析我國國家科學數據中心FAIR原則的實踐現狀,對推動科學數據的發現、訪問、獲取和重用具有重要意義。文章通過分析FAIR原則的主要內容,把握國際科學數據開放共享原則;調研20個國家科學數據中心對FAIR原則的實踐現狀,從元數據標準和用戶授權兩個層面分析結果并提出改進建議。研究發現:我國國家科學數據中心對FAIR原則的應用還有待提升,需要在持久性標識符的采用、元數據標準的公開訪問、數據許可聲明的明確等方面加強規范化、標準化管理。

關鍵詞:FAIR原則;國家科學數據中心;科學數據管理;元數據

中圖分類號:G255? ?文獻標識碼:A? ?DOI:10.11968/tsyqb.1003-6938.2023032

Abstract FAIR principle is the guiding principle for regulating scientific data management and promoting data sharing. Investigating and analyzing the current practice status of FAIR principle in China's National Science Data Center is of great significance to facilitate the discovery, exchange, acquisition and reuse of scientific data. This article grasps the international principle of sharing scientific data by analyzing the main contents of FAIR principle; investigates the current practice status of FAIR principle in 20 National Science Data Centers, analyzes the results from two levels of metadata standards and user authorization and proposes improvement suggestions. It is found that the application of FAIR principle in China's National Science Data Centers still needs to be improved, and standardization management should be strengthened in terms of the adoption of persistent identifiers, the open access of metadata standards and the clarification of data permission statements.

Key words FAIR principle;National Scientific Data Center;scientific data management;metadata

隨著科學數據資源的爆炸式增長和科學研究步入數據密集型科研范式階段,科學數據在科技發展和社會進步中的重要作用日益凸顯??茖W數據已成為創新發展的基礎性、戰略性資源,世界各國逐漸重視科學數據的開放共享和有效利用,圍繞科學數據制定了一系列相關管理政策、法規和指南,科研機構、高等院校、出版機構建設的科學數據中心逐漸成為科學研究的基礎設施。

為推進科學數據的規范管理與開放共享,發揮科學數據的價值,國際社會于2014年在荷蘭萊頓舉辦的學術研討會上提出了FAIR原則的草案[1]。2016年,《科學數據管理和監督的FAIR指導原則》一文的發表標志著可發現(Findable)、可訪問(Accessible)、可互操作(Interoperable)和可重用(Reusable)的FAIR原則正式確定為科學數據管理原則[2]。為了推進科學數據的開放共享,降低科學研究的重復性成本,需要在實踐中不斷深化FAIR原則的應用。

我國自2002年以來出臺了眾多相關政策文件,并通過建設國家科學數據中心開展科學數據的采集、匯交、管理、存儲、發布與利用工作,目前已在不同領域形成20個國家科學數據中心。但在具體實踐中,我國科學數據開放共享工作還存在制度機制不健全、標準規范不完善[3]、“數據孤島”現象普遍存在、數據標準化程度不足[4]等問題。本文擬通過分析FAIR原則的主要內容,把握國際科學數據開放共享原則;調研20個國家科學數據中心對FAIR原則的實踐現狀,提出進一步應用FAIR原則的建議,對加強和規范我國科學數據管理,提高開放共享水平具有重要意義。

1? ?研究對象

FAIR原則是國際社會廣泛認可的科學數據管理原則,自2014年提出后,全球許多國家和組織將其運用于開放科學數據領域。FAIR原則由可發現性、可訪問性、可操作性、可重用性4項主要原則和15項具體細則組成??砂l現性要求數據或元數據應以清晰明確的方式進行識別、描述、登記或索引;可訪問性要求數據應通過明確界定的訪問程序訪問,即建立訪問的認證和授權程序;可互操作性要求數據使用公共的、已發布的標準進行結構化和規范化組織,從而可在不同的應用程序或工作流之間交換和使用;可重用性進一步明確了其他原則的要點:數據被很好地記錄和整理,數據描述符合相關領域標準,數據具有清晰明確的訪問和使用條款等[5]。

我國一直十分重視和支持科學數據的管理和共享。2019年6月,為落實《科學數據管理辦法》和《國家科技資源共享服務平臺管理辦法》的要求,規范管理國家科技資源共享服務平臺(簡稱國家平臺),完善科技資源共享服務體系,推動科技資源向社會開放共享,我國在生物學、天文學、地球科學、物理學等多個學科領域已有數據中心的基礎上,優化調整形成了20個國家科學數據中心。各國家科學數據中心由我國科技主管部門布局、認證和考核,在政策支持、經費保障、組織管理水平等方面極具代表性,能夠反映我國科學數據管理與共享的發展進程。自批準成立至今,我國國家科學數據中心已走過了三年多的光景,調研國家科學數據中心對FAIR原則的實踐情況,能夠呈現我國國家科學數據中心建設與服務現狀。

從FAIR原則的具體內容來看,主要強調兩點:(1)元數據標準:標識符、元數據內容、元數據標準等;(2)用戶授權:用戶注冊與授權、許可聲明、使用條款等。因此,研究主要從這兩個層面調研分析國家科學數據中心對FAIR原則的實踐現狀。因國家極地科學數據中心網站一直無法正常訪問,故最終的調研樣本為19個國家科學數據中心(見表1)。

2? ?我國國家科學數據中心FAIR原則實踐現狀分析

基于FAIR4項主要原則,采用網絡調研、文獻調研等方式梳理分析國家科學數據中心對FAIR原則的實踐現狀。通過國家科學數據中心網站中“數據資源”“元數據”“數據目錄”“標準規范”“數據匯交”“用戶幫助”“用戶指南”“平臺介紹”等欄目、綜合性的全球研究數據倉儲注冊目錄Re3data[6](the Registry of Research Data Repositories)以及FAlRsharing[7]網站中查找檢索國家科學數據中心有關元數據和用戶授權建設內容,并通過有關國家科學數據中心建設、服務、實踐等方面研究論文,補充網絡調研不足的相關建設內容。

2.1? ? 元數據內容與標準

研究通過逐一調研19個數據中心的網站,并查閱相關文獻,梳理國家科學數據中心的元數據標準(見表2)。

2.1.1? ?標識符

數字資源唯一標識符是元數據的必備元素,是數據唯一識別并數據關聯的重要元素,通常采用 “全球唯一且持久”的標識體系。目前通用的數據標識符有數字對象標識符(DOI)、科技資源標志體系(CSTR)、檔案資源鍵(ARK)、持久統一資源定位器(URL)等。調研發現:19個數據中心有16個使用通用型永久性標識符,5個使用本地或學科標識符,NMCPDC和NMDC-Metrology沒有說明數據標識符。通用型永久性標識符中以DOI與CSTR的使用為主,兩者都具有唯一性、持久性、兼容性、互操作性和動態更新的特點,12個中心同時使用DOI與CSTR。

除通用型標識符外,部分學科領域在實踐中形成了專用標識符——學科性標識符,凸顯了學科特征,以滿足針對性需求。如NGDC的PRJC、SRP、SAMC、SUB、SDA、CRA、Taxonomy ID、CRX、SRA標識符、NMIC的MOID標識符與NADC的IVOA標識符是符合相應學科領域的規范,能夠唯一標識數據資源。學科性標識符的使用大多基于國家或國際性組織,為了促進學科領域的研究與交流,通過制定一系列數據描述、管理標準推動數據的開放共享。如氣象數字對象標識符(Meteorological Digital Object Identifier, MOID)是由中國氣象局負責建設的氣象領域標識數字對象唯一身份的標識符,為實現氣象數據安全審查、產權保護、流通追溯和成效評估提供了實踐依據[8]。

本地標識符在其所屬系統范圍內是唯一的,可用于本地索引,提供多種檢索途徑,但無法解析,不利于數據關聯,我國國家科學數據中心對通用型永久性標識符的使用并未做到全覆蓋,標識符的建設還需進一步完善。

2.1.2? ?元數據標準

元數據標準規定了描述某種特定資源對象的一系列元數據集合,是平臺數據服務形成的基礎。數據中心可根據國際國內通用的元數據標準,復用元數據元素,也可結合自身需求建立針對性的元數據標準以實現數據的規范組織,保證用戶和機器可讀。調研發現,19個數據中心中僅有7個明確說明所遵循的元數據標準,包括國際通用的DataCite、Schema.org、Dublin Core、DCC等標準。NGDC使用自行開發的元數據標準,并在網站公開了具體內容,便于其他平臺參考和復用。NCDC和NMDC-Metrology以《GB/T 30523-2014 科技平臺資源核心元數據》[9]為基準,其核心元數據包括7個元數據元素和2個元數據實體。NSSDC借鑒空間科學數據領域通用的國際標準SPASE數據模型優勢,實現空間科學數據的描述與組織。SPASE模型本質上是描述太陽物理學數據環境要素的元數據規范,采用受控詞匯表,可用于描述數據及其科學背景、來源、內容和位置等信息[10],并能在所描述的資源之間形成關聯[11]。

由調研結果可知,我國國家科學數據中心對復用或自建的元數據標準說明不夠,公開元數據標準的意識薄弱,不利于同類數據平臺的建設。

2.1.3? ?元數據內容

元數據是關于數據對象的描述性信息,包括數據質量、條件、特征等信息。為實現和提高數據的可發現性,FAIR原則建議使用豐富的元數據描述數據,幫助用戶快速找到目標資源[12]。通過統計發現,19個數據中心的元數據描述基本都達到了FAIR原則的要求,提供數據標題、關鍵詞、摘要、標識符、發布日期、發布機構等描述性元數據,注重數據基本信息的描述和詳細內容的展示,保證用戶更好地理解和獲取數據。此外,NSSDC、NADC等7個平臺提供了數據的版本信息以支持歷史數據查考和引用,注重數據的及時更新(見表3)。

元數據除支持查詢和定位科學數據的功能外,還要關注數據質量評價和數據重用信息的描述。FAIR原則建議數據包含詳細的出處信息,如數據產生原因、產生方式、創建者、創建時間、使用的原始數據或源資源、數據處理過程等,可以幫助用戶評估數據是否滿足預期的重用標準[13]。調研結果顯示,NCDC、NESSDC等5個平臺提供數據質量描述信息,NESSDC、NCDC、NEDC提供數據加工方法信息等,使得數據質量保障有據可循。15個數據平臺提供數據聯系信息、數據來源等內容,為數據重用提供了便利。

其中,NCDC的元數據在數據的版本信息、數據質量描述信息、數據加工方法信息、數據聯系信息等方面均表現較好,從不同角度較全面地描述了數據內容。從數據中心網站平臺上公布的標準規范來看,我國在2006年就針對地震科學數據的開放共享發布了一系列標準規范,如《地震科學數據 元數據編寫指南》《數據科學數據 數據元目錄》《地震科學數據 數據分類與編碼》《地震科學數據 數據交換格式》等,對地震科學數據的元數據模式、數據字典、編寫要求、分類原則與方法等做出了詳細說明,有效指導了地震科學數據的管理實踐。

2.2? ? 用戶授權與訪問協議

FAIR并不意味著沒有限制的開放或免費,對于涉及個人隱私、商業秘密、國家安全等的數據資源,需要有限訪問[14]。數據平臺需要明確使用條款和訪問協議,規定使用權限,對申請者進行授權和身份驗證,確保訪問請求、數據用途與授權條件相匹配(詳細情況見表4)。

2.2.1? ?用戶注冊與授權

19個數據中心均無需注冊即可訪問網站平臺,支持元數據使用,但很多數據和服務需要用戶注冊登錄后才能使用。針對數據的實際情況,平臺設置不同層級的訪問和獲取門檻,有的用戶登錄后可直接下載,有的需要用戶填寫數據使用需求表格提交后臺審核,有的還需要用戶驗證所屬機構信息。如高能物理實驗管理采用合作組模式,所有簽訂協議并參與合作組的國內外單位才有實驗數據的訪問權[15],因此NHEPSDC的高能物理實驗數據需要用戶成為相應合作組成員才能獲取和使用。NGDC規定只有注冊為PI的用戶才能申請下載數據,以保證數據訪問安全。而NESSDC設置了“數據直接下載”欄目,用戶無需登錄,可直接下載90個數據集內容。

出于對數據安全的考慮,數據平臺需要劃分用戶層級并分配不同權限,以規范用戶使用行為。13個數據中心將用戶簡單劃分為訪客和注冊用戶兩類進行權限控制。NHEPSDC區分用戶為所內所外,并采用基于tokens的用戶認證和資源訪問權限控制。NGDC采取雙重認證方式,以確保數據的可溯源性[16]。高能物理實驗數據與基因組學相關數據或依托于大型國家或國際專業觀測儀器設備,或涉及國家安全、隱私相關內容,更注重對用戶權限的管理,限制要求更高。NMDC-Marine注冊用戶分為普通用戶、個人認證用戶和單位認證用戶,三者的區別在于可瀏覽、檢索和收藏下載科學數據的范圍和每日可下載數據量不同。由此可見,不同層級的用戶權限和身份不同,層級越高的用戶身份可以獲取和使用的數據范圍越廣,體現了數據有限使用的原則。

2.2.2? ?許可聲明與使用條款

為了便于重用,數據及其元數據必須包含許可證以說明數據資源的使用條件,并且選擇的許可證應盡可能開放[17]。由表4可見,10個數據中心未明確許可聲明,可能會產生法律上的不確定性,阻礙數據資源的重用。9個數據中心明確說明遵循標準的機器可讀許可協議——CC協議,其中以知識共享署名4.0(CC-BY 4.0)許可證的應運最為廣泛。NPHDC還采用英國國家檔案館發布的可適用于開放數據的共用許可協議——(OGL UK)Open Government Licence 3.0,與CC BY 4.0兼容,兩者都許可版權和數據庫權利[18]。

除遵循標準的許可協議外,數據平臺也可通過自制政策條款說明數據使用協議與注意事項。通過統計發現,11個數據中心使用“服務條款”“免責聲明”“數據使用聲明”“隱私保護”等欄目說明使用條款的相關內容,明確平臺上的數據資源版權歸數據和資料原生產單位所有或平臺所有。為尊重知識產權、保障數據作者和數據服務提供者的權益,平臺要求用戶遵守知識產權的有關規定,在研究成果中注明和引用科學數據;要求用戶不得將數據轉讓給第三方,由此引起的一切后果由數據用戶承擔。雖然自制政策也能對用戶的數據使用行為做出細致規定,但是標準化不足,不利于科學數據與數據平臺的數字化推廣使用。

2.3? ? 我國國家科學數據中心FAIR原則實踐現狀總結

綜上所述,國家科學數據中心的元數據內容較為豐富。元數據結構越是發展成熟、在國際上有一定影響力的科學數據中心,其元數據內容更為詳實,既有對數據本身的詳細描述,也體現了對知識產權的充分尊重,詳細標注了數據的生成者,并對數據的更新版本做了描述,不同版本進行了保留,凸顯了科學數據的動態變化特征,更有助于科學數據的廣泛利用。國家青藏高原科學數據中心是我國第一個與國際出版商(Springer-Nature)合作的科學數據倉儲平臺,被Nature指定為其系列期刊的科學數據存儲平臺之一,可以看出其元數據標準與國際相關標準接軌。正是基于豐富的元數據內容,國家青藏高原科學數據中心才與CSCD數據庫開展合作,實現科學數據與科學文獻的關聯。雖然國家科學數據中心的元數據內容大多比較豐富,但是在描述內容的標準化、規范化方面還有待進一步發展,另外少數科學數據中心的元數據內容尚待進一步完善。

在用戶使用方面,國家科學數據中心都設置了用戶注冊要求、限定了用戶使用權限和許可聲明。由于科學數據平臺是近幾年才逐漸從匯交數據、存儲數據發展到提供數據服務與利用,并根據用戶需求與數字環境的變化,以及開放數據的進一步普及不斷完善平臺功能建設與服務內容,相信在科學數據應用方面還會有更為詳細的規定,特別是有關科研誠信和科學倫理的規定。

同時,調研發現我國國家科學數據中心對FAIR原則的實踐中還存在三方面不足:(1)目前我國國家科學數據中心對通用型永久性標識符的使用并未做到全覆蓋,有兩個數據中心未提供唯一性的可解析的數據標識符,影響第三方平臺的鏈接和關聯;本地標識符需要進一步優化,以滿足數據解析與關聯需求;(2)數據中心所使用的元數據標準開放共享程度較低,僅有7個中心說明所遵循的元數據標準,公開元數據標準的意識薄弱,不利于元數據標準的復用和同類數據平臺的建設;(3)數據使用許可的明確與標準化程度有待提升,以幫助用戶明確使用要求與義務,促進科學數據與數據平臺的數字化推廣使用。

3? ?FAIR原則實施建議

FAIR原則是科學數據管理的指導性原則,通過分析我國國家科學數據中心對該原則的實施現狀可以發現,我國科學數據管理與共享工作取得了一定成效,但還存在一些不足。為促進我國科學數據的規范管理與開放共享,對我國國家科學數據中心實施FAIR原則提出如下建議。

3.1? ? 采用持久性標識符

數據或元數據擁有一個全球唯一且持久的標識符,以便計算機發現和解析,這是FAIR原則實現數據共享與重用的基礎[19]??茖W數據中心需要為匯交采集的結構化、半結構化、非結構化等各類科學數據配備唯一且永久性的標識符,并與一系列描述性元數據相關聯,解決數據的身份問題。從國際學術交流的角度,科學數據中心通過采用國際通用的永久唯一識別符,建立學術交流的渠道,從科學數據自主管理的角度,應廣泛應用根據GB/T 32843《科技資源標識》國家標準構建的科技資源標識符CSTR,有助于我國保持科學數據的有效性、解析權和獨立自主分配科技資源唯一性標識符的權利。

3.2? ? 提供元數據標準的公開訪問

數據平臺公開共享其元數據標準能夠幫助人們更好地理解數據,為數據的接口與傳輸、關聯與使用提供便利。而我國國家科學數據中心所使用的元數據標準開放共享程度較低,僅有7個說明所遵循的元數據標準。國家科學數據中心作為我國數據管理領域的佼佼者,建立的元數據標準應該普惠于同學科領域其他數據平臺的建設與組織管理,并在實踐中不斷優化,以共識、標準、規范為我國科學數據平臺的建設做出貢獻。

3.3? ? 明確數據許可聲明

數據許可聲明包含對數據能否重用、數據重用范圍、方式、注意事項等的說明,是用戶使用數據的依據。開放科學數據應在必要時設置保護期限、內容分級控制等明確科學數據開放共享的范圍邊界,以更好地保護科學數據的知識產權和鼓勵科學數據的共享。歐洲開放科學云發布的《2020計劃框架下的FAIR數據管理指南》[20](Guidelines on FAIR data management in Horizon 2020)中要求說明數據是否可重用、可重用的條件、數據有限訪問的原因和期限等內容。Mendeley Data平臺針對各種類型數據,提供了15種許可協議、使用聲明供數據提供者選擇,包括CC授權協議、軟件許可聲明(MIT、Apache、BSD、GPL)以及硬件許可聲明[21],方便研究人員上傳和共享數據。

數據平臺須重視參考標準的、機器可讀的重用許可聲明,在元數據中包含使用適當元數據元素表示的許可信息;明確不同數據的使用權限,并做出詳細說明;參考國際標準,考慮以機器可讀格式如HTML文檔、RDF等形式提供。數據平臺明確許可聲明的內容和標準,能夠幫助用戶更好地理解科學數據的使用權利與義務,減少因數據權屬不確定性導致的數據重用糾紛,推動科學數據的公開共享。

4? ?結語

FAIR原則旨在促進科學數據的規范組織和共享重用。通過調研我國20個國家科學數據中心對FAIR原則的實踐情況可知,我國科學數據中心建設在國家政策的推動下不斷發展,匯聚了各領域的科學數據,形成一定的規模,在科學數據發現、利用、互操作、重用方面提供較為有力的支撐。但科學數據中心的發展任重道遠,在科學數據數量、質量的提升方面有待進一步發展,在科學數據的利用方面有待于提供更為完善的系統之間的數據交互途徑,在數據服務方面有待于政策與使用聲明的進一步明確。只有多維度協同共進,才能建設成數據“存得下、流得動、用得好”的平臺。

參考文獻:

[1]? Data FAlRport.Find, Access, Interoperate & Re-use Data[EB/OL].[2023-02-23].https://www.datafairport.org/.

[2]? WILKINSON M D,DUMON'TIER M,AALBERSBERG I J,et al.The FAIR Guiding Principles for scientific data management and stewardship[J].Scientific data,2016,3(1):1-9.

[3]? 高孟緒,王瑞丹,王超,等.關于國家科學數據中心建設與發展的思考[J].農業大數據學報,2019,1(3):21-27.

[4]? 楊雅萍,姜侯,孫九林.科學數據共享實踐:以國家地球系統科學數據中心為例[J].地球信息科學學報,2020,22(6):1358-1369.

[5]? Boeckhout M,Zielhuis G A,Bredenoord A L.The FAIR guiding principles for data stewardship: fair enough?[J].European journal of human genetics,2018,26(7):931-936.

[6]? Registry of research data repositories[EB/OL].[2023-02-25].https://www.re3data.org/.

[7]? FAIRsharing.org[EB/OL].[2023-02-25].https:///fairsharing.org/.

[8]? 氣象數字對象標識符[EB/OL].[2023-03-28].http://moid-node.cma.cn/.

[9]? 中華人民共和國國家質量監督檢驗檢疫總局、中國國家標準化管理委員會.GB/T 30523-2014 科技平臺資源核心元數據[S].北京:中國標準出版社,2014.

[10]? DCC.SPASE Data Model[EB/OL].[2023-02-25].https://www.dcc.ac.uk/resources/metadata-standards/spase-data-model.

[11]? King T,Thieman J,Roberts DA.SPASE 2.0:A standard data model for space physics[J].Earth Science Informatics,2010,3(1-2):67-73.

[12]? GO FAIR.FAIR Principles[EB/OL].[2023-02-25].https://www.go-fair.org/fair-principles/.

[13]? Weigel T,Schwardmann U,Klump J,et al.Making data and workflows findable for machines[J].Data Intelligence,2021,2(2):40-46.

[14]? Mons B.FAlR science for social machines: let's share metadata Knowlets in the Internet of FAlR data and services[J].Data lntelligence,2019,1(2):22-42.

[15]? 齊法制,陳剛,程耀東.建立權責明晰且能力健全的科學數據開放共享機制——以高能物理領域為例[J].中國科學基金,2019,33(3):229-236.

[16]? 李茹姣,張欣,宋述慧,等.基因組科學數據的安全管理與應用[J].大數據,2022,8(1):37-45.

[17]? Labastida l,Margoni T.Licensing FAlR data for reuse[J].Data lntelligence,2019,1(1):199-207.

[18]? The National Archives.Open Government Licence for public sector information[EB/OL].[2023-02-25].https://nmdc.cn/submit/guide.

[19]? Jacobsen A,Azevedo RD,Juty N,et al.FAIR Principles:Interpretations and Implementation Considerations[J].Data Intelligence,2020,2(1-2):10-29.

[20]? European Union.Guidelines on Data Management in Horizon 2020[EB/OL].[2023-03-26].http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa.

[21]? 盧垚,王鸑飛,劉洪冰,等.Mendeley Data平臺開放科學數據實踐及啟示[J].數字圖書館論壇,2021,(9):19-26.

作者簡介:李楠楠,女,中國科學院文獻情報中心、中國科學院大學經濟與管理學院圖書情報與檔案管理系碩士研究生;劉筱敏,女,中國科學院文獻情報中心研究館員。

猜你喜歡
元數據
元數據國際交換共享的客家古民居數字記憶工程建設
基于來源的組織機構元數據構建研究
元數據與社會化標簽在微視頻搜索中的應用
高等院校智慧校園建設規劃與實現
利用VB讀取中國知網過刊數據提取元數據的研究
財會信息資源元數據標準的研究
基于隱語義模型和用戶信任的個性化推薦模型
基于關聯數據的語義數字檔案館框架設計研究
基于角色控制的異構數據展示在企業門戶中的應用
基于元數據映射機制的異構數據操作
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合