?

e-Science環境下科研活動與科學數據一站式管理平臺研究

2024-03-25 04:34曹秀麗王宇飛王一
四川圖書館學報 2024年2期
關鍵詞:科研活動數據管理服務

曹秀麗 王宇飛 王一

收稿日期:2023-04-23

摘? 要:

在信息化、數據密集化(e-Science)科學研究新形勢下,規范高效地管理科研活動和科學數據,對科研創新突破、資源集成共享具有十分重要的意義。文章在調研多個研究團隊科研數據管理現狀的基礎上,基于科研—數據雙生命周期模型,構建了科研活動與科學數據的一站式管理平臺。初步探討了平臺的系統架構與功能實現,詳細闡述了平臺的用戶角色管理及權限分配策略,以期這個新型平臺能為科研數據管理服務工作提供一些新的思路和方法。

關鍵詞:

科研數據管理;雙生命周期;科研活動;研究數據;管理平臺

中圖分類號:G252??? 文獻標識碼:A? ??文章編號:1003-7136(2024)02-0042-07

Research on the One-stop Management Platform of Scientific Research Activities and Scientific Data in e-Science Environment

CAO Xiuli,WANG Yufei,WANG Yi

Abstract:

Under the new situation of scientific research becoming informationalized and data-intensive (e-Science),standardized and efficient management of scientific research activities and scientific data have great significance to scientific research innovation,resource integration and sharing.By surveying the current situation of scientific data management in several research teams,this paper constructs the one-stop management platform of scientific research activities and scientific data based on a dual-life cycle model of scientific research and data.The system architecture and function realization of the platform are discussed.The user role management and permission allocation policies of the platform are elaborated on.This new platform is expected to provide some new ideas and methods for scientific research data management services.

Keywords:

scientific research data management;dual-life cycle;scientific research activity;research data;management platform

0? 引言

隨著信息技術的飛速發展,科學研究從計算模擬第三范式邁入數據密集第四范式 [1],各學科領域的科研活動源源不斷地產生海量的科學數據。各國政府將科學數據視作重要的戰略資源,紛紛頒布相關政策法規,從國家層面大力支持科學數據的生成采集、管理使用和開放共享等活動[2-4]。除此之外,科研資助機構[5-7]、大型出版集團[8-11]均要求受資助項目與學術論文得到妥善保存和開放共享科研數據,以提高科學研究的透明性和可重復性??偟膩碚f,科研數據管理對國家智庫、資助機構、出版商、研究人員等利益相關群體而言,具有不可估量的價值和深遠的意義。

1? 國內外研究現狀

在積極明確的政策導向和相關群體的迫切需求下,國內外涌現了許多不同規模和類型的科研數據管理平臺。

國外高校率先研發科研數據管理平臺及提供配套服務。由美國哈佛大學定量社會科學研究所開發的Dataverse平臺主要為社會學、人文科學、信息學等多個學科的科研人員提供資源和信息的長期存儲與管理服務[12]。麻省理工學院的DSpace數字資產管理系統是一個大型的、多學科的數字管理存儲平臺,可以為教育科研人員提供電子檔案管理、數字出版物管理、機構知識庫等服務 [13-14]。除此之外,康奈爾大學的DataStaR存儲庫[15]、約翰斯·霍普金斯大學Data Conservancy項目[16]也是國外優秀科研數據管理平臺的典型代表。

近年來,國內高校已認識到科研數據集中存儲與管理的重要性,在平臺建設和服務內容方面做了許多積極的嘗試。國內高校大多是在國外優秀的研究數據管理平臺的基礎架構之上,依據本機構需求進行二次開發。北京大學、復旦大學選用開源Dataverse軟件進行特殊化定制,創建了北京大學開放研究數據平臺[17-20]和復旦大學社會科學數據平臺[21-22]。此外,清華大學、廈門大學、武漢大學立足本校的教學科研活動,采用DSpace搭建了本機構的科研數據倉儲平臺 [23-26]。

在國內外學界的不斷努力下,科研數據管理平臺相關的理論和應用實踐越來越豐富,但仍有一些值得繼續優化和深挖的地方。例如,休斯敦大學Peters C和Dryden

A R認為在傳統的數據存儲需求之外,還可以為研究人員提供諸如數據管理計劃、資金資助申請、出版支持等科研輔助服務[27]。劉桂鋒等在復旦大學社會科學數據平臺上以具體的科研情景開展功能定位研究,提出高??蒲袛祿脚_如能具備選題立項、科研準備、科研實施和成果管理等功能,將能更好、更全面地開展科研數據管理服務工作[28]。

現有的科研數據管理平臺主要側重于科學數據的廣泛收集與專業管理,這種以數據為中心的組織模式和功能定位相對較為單一。這將與數據緊密相連的科研活動從平臺管理中剝離開來,無法體現二者在整個科研工作流中協同配合與相互促進的內在機制。另外,單一的數據管理模式在一定程度上也會削弱科研人員對平臺的依賴度和持續使用度,不利于平臺長期穩定地運行。

綜上所述,構建科研活動與科學數據一站式管理平臺是一個非常重要的拓展方向,可以在科研工作流中實現對二者的實時追蹤與同步管理,更好地滿足研究團隊復雜的科研數據管理需求。

2? 研究內容

2.1? 需求調研

科研團隊和研究人員既是科研數據的生產者,也是使用者,是科研數據管理平臺最直接和最重要的利益相關者,其需求意見對科研數據管理平臺的開發具有十分重要的參考意義。

本研究在四川省內兩所“雙一流”建設高校(四川大學、成都理工大學)和兩所省屬高校(四川師范大學、西華師范大學)調研生物學、計算機、化學、環境學、數學、物理學、教育學、經濟學、歷史學、設計學十個研究團隊,采訪研究團隊負責人、研究員、研究生等群體,收集科研數據管理的現狀和實際需求調查表,共計收到132份調查問卷,統計結果見表1。調查結果顯示,

在數據存儲介質方面,有八個科研團隊使用個人電腦,各有一個科研團隊選用移動硬盤、云服務器來存儲研究數據。另外,十個研究團隊現階段均還未使用專業的科學數據管理平臺來保存和管理數據。

存儲內容方面,除了研究數據之外,科研團隊還對文獻資料、資金使用、科研成果、項目情況、團隊成員等非傳統意義的科研數據有較高的存儲需求。存儲格式方面,十個研究團隊產出的數據類型較為復雜,當前最常采用的格式是文本文件和電子表格。存儲效果方面,

數據共享困難、數據保存分散、數據格式不統一是大多數研究團隊集中反饋的困境,另外,研究團隊當下還面臨數據丟失、數據傳承、數據共享和重復利用等方面的困難。管理需求方面,由于研究數據的體量不斷增加,各科研團隊均需數據素養教育或數據管理方法與工具使用培訓,有針對性地提升科研人員的數據意識和能力。團隊還需要合適的管理工具以輔助研究人員對數據進行有效的組織和評估,實現數據管理系統化、專業化。另外,本研究還對科研活動中的數據相關操作、科研人員的數據操作權限等做了詳細的調查。

2.2? 科研—數據雙生命周期模型

科研數據管理同時涉及科研活動和科學數據兩個核心要素,這二者本身具有高度的關聯特性,其中,研究人員在科研全流程中歷經的不同工作環節稱為科研生命周期[29]。與此同時,伴隨科研活動產生的科學數據也在經歷“生成—捕獲—組織—評估—分析—存儲—二次利用”的動態循環過程,即數據生命周期[30]??蒲泻蛿祿蓚€生命周期某些階段可能重合或互為補充。筆者前期以研究團隊為首要責任主體,細化了科研活動和數據管理的關鍵環節,詳細討論了二者的互補協同機制,創建了科研—數據雙生命周期模型[31],如圖1所示。在這個模型中,科研生命周期是科研活動中核心研究步驟的概括和總結,可用于指導科研人員有計劃地安排研究進程;數據生命周期從數據主動管理出發,追蹤數據在全生命周期內的有效路徑,是科研數據管理服務的基礎框架。

2.3? 科研數據一站式管理平臺

本研究基于科研—數據雙生命周期模型設計合適的平臺組織架構和科研數據管理形式,構建科研活動和數據管理的一站式平臺——R&D平臺,其中R代表科研活動(Research),D代表科學數據(Data)。

2.3.1? 平臺系統架構

R&D平臺主要包含文獻資源空間、項目信息空間、研究數據空間、科研成果空間、應用創新空間五個科研數據二級倉儲,如圖2所示。這種空間劃分主要依據的是雙生命周期模型的核心階段,能更清晰明了地展示科研工作流中的具體研究階段和數據產出內容。

R&D平臺的系統架構共五層,分別為存儲層、基礎服務層、業務服務層、接入層和展示層,其中箭頭表示依賴關系,即上層依賴下層,如圖3所示。

存儲層為整個系統提供持久化服務,其中的分布式搜索分析引擎Elastic-Search幾乎支持所有類型的數據(如結構化或非結構化文本、數字數據或地理空間數據等)快速檢索,借助它可以建立科研項目、研究主題、論文主題詞等特殊關鍵字與文件之間的映射關系,便于執行實時分析與快速搜索;關系型數據庫MySQL則用于存儲用戶、權限、流程等關系型數據;Redis-Cluster集群用作整個系統的緩存;HBase數據庫用于存儲系統按時間沉淀的文檔、圖片等多種類型的海量科學數據;分布式文件系統Ceph則提供對象存儲和文件系統服務。

基礎服務層作為一個引擎驅動著業務服務層的流程流轉,業務服務層依賴于基礎服務層?;A服務層采用分布式微服務架構,服務注冊中心是微服務的核心,具備注冊和發現的能力,系統內任何服務想要與其他服務通信,都可以通過注冊服務來發現其他服務的地址。用戶管理和權限管理屬于后臺管理基礎服務,用戶管理提供整個系統的用戶注冊、登錄認證等相關用戶操作;權限管理負責用戶的權限配置,包括用戶角色管理,角色菜單、數據權限配置等功能。流程引擎作為系統的流程抓手,提供流程模板配置、流程流轉驅動等功能。OAM服務是運維基礎,提供人機接口供后臺定位問題等。

業務服務層包含了R&D平臺上能提供的文獻資源、項目信息、研究數據、科研成果、應用創新五個科研數據存儲和管理空間,是系統核心服務能力的體現。接入層作為業務服務和用戶請求的介質,用于把用戶請求路由到對應的業務服務之上,并提供對多服務實例負載均衡的訪問能力。展示層是整個平臺系統提供給用戶的多種訪問渠道,包括電腦Web端、手機App、小程序等。

2.3.2? 用戶管理與角色權限分配

用戶管理與權限分配是科研數據管理平臺的核心業務之一。DSpace采用分級權限控制策略給用戶分配了與數據操作關聯的角色,例如提交者、審核者、終審者等,賦予讀取、寫入、添加、刪除等不同權限[32]。Dataverse則是將多種數據管理權限的組合定義為角色,如管理員、貢獻者、監管者、創建者等,用戶被賦予的角色決定了他們在歸屬數據集中的權限,例如,貢獻者有查看、下載、編輯和刪除數據集的權限,但卻沒有發布數據集的權限[33]。在上述兩個平臺中,權限是對受保護對象授予操作的批準集合,受保護對象可以是平臺中所有的內容,包括數據、模塊、菜單、頁面、字段、操作等。通過角色將用戶與權限相關聯的機制稱為角色的權限訪問控制RBAC(Role-Based Access Control)[34]。

在RBAC這種機制中,用戶與角色、角色與權限之間可以是多對多的關系,如圖4所示。數據庫中引入用戶與角色關聯映射(t_user_role)、角色與權限關聯映射(t_role_permission),加強用戶、角色和權限三者間的關聯性。值得注意的是,在DSpace和Dataverse兩個平臺上用戶被賦予了數據角色和相應的數據權限,但用戶的科研角色卻未能得到明顯體現。

R&D平臺借鑒RBAC機制,先確定研究人員的科研角色及科研權限,然后再賦予其數據權限,從而將兩種類型的權限集中統一于同一研究人員。

在R&D平臺,研究人員在注冊時先依據團隊中自身的職能和分工選定科研角色。圖1內環是雙生命周期模型中的科研生命周期,這十四個科研環節僅僅代表了典型的十四種科研權限。在R&D平臺上,科研角色是顯性角色,數據角色是隱性角色,數據角色并不獨立存在,而是隱含于科研角色之內。圖1外環所示的數據生命周期七個環節對應著七種數據權限。研究人員在科研活動中的數據相關操作、科學數據的流向以及數據的敏感隱私特性是數據權限分配的主要依據。

總的來說,將科研和數據權限集中于同一角色的用戶管理模式有著明顯的優勢。首先,用戶直接關聯的就是科研活動中自己本身所屬的科研角色,不存在角色轉換過程,能更及時地響應科研需求,有助于提升用戶對平臺的持續使用度和依賴度;其次,兩種權限的統一意味著研究人員在科研進展過程中可以同步完善數據相關活動,能更好地保證數據的專業性和準確性;最后,科研產生數據,數據驅動科研,這種用戶管理模式使得科研活動和數據管理處于實時交互且閉環的良性循環之中。

2.3.3? 數據組織與管理

對數據進行合理、有效的組織是科研數據管理平臺較重要的功能之一,R&D平臺數據組織與管理內容主要包括五個方面。

(1)文獻資源空間。文獻資源是科研活動順利開展、取得突破的重要保障。信息化時代,文獻資源具有載體多元化、數量增長快等特點,僅僅借助于文獻管理工具或個人電腦很難達到集中、協作與傳承之目的,亟須對文獻數據進行科學、高效地存儲與管理。為此,在R&D平臺創建科研數據倉儲,即文獻資源空間。在該空間中,研究團隊成員收集、閱讀、整理與科研項目研究主題相關聯的文獻資源,隨后按照項目主題或文獻主題進行標簽化。重復文獻不二次錄入,僅在原記錄上增加主題關聯標簽,便于數據的分類存儲、快速檢索與精確定位。最后將其提交到平臺由項目負責人審核,審核通過后即可存入文獻資源空間,若審核不通過則通知團隊成員不做入藏處理。

(2)項目信息空間??蒲谢顒又袌F隊成員檔案和資助情況雖不是研究的主體數據,但是它們對于科研項目的完整性和發展性也十分重要。R&D平臺為此開辟了特有的項目信息空間,重點存儲與學術團隊、資助申報相關聯的科研輔助數據。其中,團隊帶頭人負責創建學術團隊的成員信息,并對其進行長期培育;項目負責人對項目申報、項目立項、資金使用等具體數據進行維護,結合項目定期檢查將更加明確項目當下的推進情況。這些科研輔助數據雖然維護起來較為繁瑣,但其本質上卻體現了研究團隊的組織和執行能力,比一般意義上的科研數據管理的外延更廣,是科研全流程中不可或缺的部分。

(3)研究數據空間。研究產生的主體數據是科研結果的直觀證明和強力支撐,是科研的核心價值所在。R&D平臺的研究數據空間致力于研究主體數據的集中整合和長期保存,如圖5所示。其存儲機制為研究人員收集原始數據并對數據進行分析、分級、分類等,按科研項目或研究主題對數據進行標簽化,再提交給項目負責人審核,以確保數據的準確性和有效性。審核通過后即可存入相應的數據集,全部的數據集整合在一起即為完整的研究數據空間。這里的研究數據主要包含實驗直接產生的原始數據,如文本、代碼、軟件、圖像和音頻等。諸如研究進度記錄、研究思路整理、周會月會報告等啟發科研思維和階段突破的信息資料,以及已公開的定量或定性數據也應囊括在研究數據的范圍之內。

(4)科研成果空間??蒲谐晒茄芯咳藛T通過具體的研究活動所取得,經得起檢驗評價,具有學術或實用價值的創新成果,是科研質量和水平的客觀體現??蒲谐晒芾韺τ谘芯靠偨Y和數據傳承有重要的現實意義。由于學科門類和研究方向的差異,科研成果的最終呈現形式多種多樣,包括專著、學術論文、發明專利、軟件圖紙、工藝技術等。

(5)應用創新空間。研究成果轉化與應用創新是科研工作中相當重要的環節,是理論研究向實際應用的重大轉變。R&D平臺創建了獨立的應用創新空間,如圖6所示。項目負責人在該空間可以錄入和管理學術會議、參觀考察、對外合作等學術交流信息,等同于建立了相關研究領域的最新進展信息庫,以便讓研究團隊更快、更好地洞察到潛在的合作伙伴或新的科研方向。

3? 結語

以研究團隊實際需求為導向,基于雙生命周期模型構建科研數據管理平臺,旨在實現同一平臺內同步管理科研活動和研究數據。區別于其他管理平臺,該平臺主要有兩個特點:第一,平臺執行科研和數據管理權限均集中于同一科研人員的用戶管理模式,在這種模式中研究人員能更及時地響應科研需求,也能更好地保證數據的有效性和完整性。第二,平臺以雙生命周期的重要階段作為空間劃分的主要依據,創建了文獻資源空間、項目信息空間、研究數據空間、科研成果空間、應用創新空間五個科研數據二級倉儲,在科研工作流中能夠更加規范、合理地存儲和訪問數據。

現階段,平臺的基礎架構設計已初步完成,但仍有許多地方需要不斷完善和優化。諸如,在該架構上嵌入數據可視化、數據挖掘、數據引用等軟件和工具的直接調用接口;考慮到不同研究團隊或機構間的合作,平臺后期還要設計數據整合與相互調用的模塊,為數據交流和知識共享做準備。

參考文獻:

[1]HEY T,TANSLEY S,TOLLE K.The fourth paradigm: data-intensive scientific discovery[M].Washington:Microsoft Research,2009:xi-xvii.

[2]WILKINSON M D,DUMONTIER M,AALBERSBERG I J J,et al.The FAIR guiding principles for scientific data management and stewardship[J].Scientific data,2016,3(3):18-27.

[3]Increasing access to the results of federally funded science[EB/OL].

(2016-02-22)

[2022-10-12].https://obamawhitehouse.archives.gov/blog/2016/02/22/increasing-access-results-federally-funded-science.

[4]國務院辦公廳印發《科學數據管理辦法》[EB/OL].

(2018-04-02)

[2022-10-11].http://www.gov.cn/xinwen/2018-04/02/content_5279295.htm.

[5]Chapter II-Proposal preparation instructions[EB/OL].

(2017-01-30)

[2022-10-12].https://www.nsf.gov/pubs/policydocs/pappg17_1/pappg_2.jsp#IIC2div.

[6]Basics and Principles of Funding[EB/OL].[2022-10-12]. https://www.dfg.de/en/principles-dfg-funding/basics-and-principles-of-funding.

[7]Research data management[EB/OL].[2022-10-13].https://www.arc.gov.au/policies-strategies/strategy/research-data-management.

[8]Open data[EB/OL].[2022-10-10].https://www.springernature.com/gp/open-research/open-data.

[9]Supplementary information[EB/OL].[2022-10-12].https://www.nature.com/nature/for-authors/supp-info.

[10]Open data[EB/OL].[2022-10-11].https://authorservices.wiley.com/open-research/open-data/index.html.

[11]Sharing research data[EB/OL].[2022-10-12].https://www.elsevier.com/authors/tools-and-resources/research-data.

[12]Harvard Dataverse[EB/OL].[2022-10-10].https://dataverse.harvard.edu/.

[13]DSpace:an open source dynamic digital repository[EB/OL].[2022-10-09].https://www.dlib.org/dlib/january03/smith/01smith.html.

[14]DSpace@MIT[EB/OL].[2022-10-09].https://dspace.mit.edu/.

[15]DIETRICH D.Metadata management in a data staging repository[J].Journal of library metadata,2010,10(2-3):79-98.

[16]Data Conservancy[EB/OL].[2022-10-12].https://dataconservancy.org/.

[17]北京大學開放研究數據平臺[EB/OL].[2022-09-20].https://opendata.pku.edu.cn/.

[18]朱玲,聶華,崔海媛,等.北京大學開放研究數據平臺建設:探索與實踐[J].圖書情報工作,2016,60(4):44-51.

[19]羅鵬程,朱玲,崔海媛,等.基于Dataverse的北京大學開放研究數據平臺建設[J].圖書情報工作,2016,60(3):52-58.

[20]崔海媛,羅鵬程,李國俊,等.一流高校研究數據管理服務體系的研究與建設:以北京大學圖書館為例[J].大學圖書館學報,2019,37(2):42-48.

[21]殷沈琴,張計龍,張瑩,等.社會科學數據管理服務平臺系統選型研究:以復旦大學社會科學數據平臺為例[J].圖書情報工作,2013,57(19):92-96.

[22]張計龍,殷沈琴,張用,等.社會科學數據的共享與服務:以復旦大學社會科學數據共享平臺為例[J].大學圖書館學報,2015,33(1):74-79.

[23]曾婷,董麗,鄒榮,等.開源倉儲軟件在清華大學圖書館的研究應用與思考[J].圖書館雜志,2012,31(5):58-64.

[24]陳和.DSpace系統與廈門大學機構存儲的構建[J].數字圖書館論壇,2006(9):61-67,75.

[25]項英,賴劍菲,丁寧.高校圖書館科學數據管理服務實踐探索:以武漢大學社會科學數據管理為例[J].情報理論與實踐,2013,36(12):89-93.

[26]劉霞,饒艷.高校圖書館科學數據管理與服務初探:武漢大學圖書館案例分析[J].圖書情報工作,2013,57(6):33-38.

[27]PETERS C,DRYDEN A R.Assessing the academic library′s role in campus-wide research data management: a first step at the University of Houston[J].Science & technology libraries,2011,30(4):387-403.

[28]劉桂鋒,張裕,蘇文成,等.高??蒲袛祿脚_功能定位與優化研究:基于眼動追蹤實驗[J].情報理論與實踐,2021,44(2):115-121,70.

[29]HUMPHREY C.E-Science and the life cycle of research[EB/OL].[2022-09-20].https://era.library.ualberta.ca/items/3334684b-fa6a-4c9d-a74b-559fecd42f9f.

[30]INMON W H,LINSTEDT D.Data architecture:a primer for the data scientist:big data,data warehouse and data vault[M].Amsterdam:Morgan Kaufmann,2015:33-37.

[31]曹秀麗,賴朝新.e-Science環境下科研—數據雙生命周期模型初步研究[J].情報理論與實踐,2022,45(6):157-163.

[32]DSpace[EB/OL].[2022-10-12].https://dspace.lyrasis.org/.

[33]Dataverse Project[EB/OL].[2022-10-12].https://dataverse.org/.

[34]

FERRAIOLO D F,KUHN D R.Role-based access controls[C]//15th National Computer Security Conference.Gaithersburg:National Institute of Standards and Technology,1992:554-563.

作者簡介:

曹秀麗(1984— ),女,博士,館員,任職于四川師范大學圖書館。研究方向:數字資源管理與建設。

王宇飛(1987— ),男,碩士,館員,任職于四川師范大學圖書館。研究方向:電子信息技術。

王一(1993— ),女,碩士,館員,任職于四川師范大學圖書館。研究方向:信息素養教育。

猜你喜歡
科研活動數據管理服務
企業級BOM數據管理概要
計算機學科科研活動行為規范建議
定制化汽車制造的數據管理分析
海洋環境數據管理優化與實踐
CTCS-2級報文數據管理需求分析和實現
服務在身邊 健康每一天
服務在身邊 健康每一天
服務在身邊 健康每一天
招行30年:從“滿意服務”到“感動服務”
機械卓越工程師教育培養計劃學科競賽和科研活動體系建設研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合