?

美國科研人員數據管理需求分析及啟示

2023-03-05 01:11韓金鳳
廣東技術師范大學學報 2023年6期
關鍵詞:數據服務數據管理科研人員

韓金鳳

(廣東技術師范大學 圖書館,廣東 廣州 510665)

0 引言

21 世紀初,科學發現步入數據密集型為特征的“第四范式時代”,科研數據成為推動科技創新的重要戰略資源,如何有效管理、保存和共享數據已成為全球科研人員共同關注的問題.在數據與需求的雙重驅動下,圖書館積極開發科研數據管理服務,為科研人員提供數據管理技能、技術和工具的支持.科研數據管理需求調研是圖書館開展數據管理服務的首要環節,可幫助高校了解科研人員的數據管理實踐情況,明確其數據管理需求,為圖書館拓展數據管理服務與教育提供新思路.

科研數據管理需求調查進入學者和圖書館的研究視野并得到廣泛關注,目前國內外在這個領域已取得許多成果.雖然調研范圍和調研對象各不相同,但都聚焦于揭示科研人員數據管理需求的共性.其中,機構層面的數據管理需求調研最為常見,主要確定位于特定機構研究人員的共性需求[1-2],而不關注因學科、身份等因素形成的個性化需求.部分研究則專注于特定學科(如農學[3]、社會科學[4])研究人員的數據管理行為和需求.還有針對跨機構多學科的研究人員開展的大規模調研,如DataONE 評估小組在2009—2010 年[5]和2013—2014 年[6]對千余名科學家進行的數據管理實踐調查.以上三種類型的調研都面向多層次的科研人員,而另一些研究則關注特定科研子群體的數據管理需求,包括研究生[7]、首席研究員(PI)[8]等.此外,還有一些學者對調研案例進行了總體分析,包括美國數據管理調查的定量分析[9]、英國數據管理需求調研實踐梳理[10]、研究人員數據共享定性調查的元綜合研究[11]等.

目前科研數據管理需求調研主要著眼于特定機構或學科研究人員的需求,而缺乏從綜合分析的視角對調查結果展開研究.鑒于此,本文對2017—2023 年美國數據管理需求的調查結果進行系統梳理與深入分析,探討科研人員數據管理行為特點,厘清科研人員數據管理需求,為我國高校圖書館實施科研數據管理服務與數據素養教育提供若干啟示.

1 美國科研數據管理需求調研概貌

筆者以檢索式“Title=(research data OR scientific data OR data management OR data curation OR data literacy) AND Title=(survey OR assess OR interview OR practice OR need OR behavior),在 Web of Science、Elsevier、EBSCO、Emerald、Springer、Wiley、google scholar中進行檢索,考慮到調研具有時效性,為使研究更具科學性和可比性,將發表時間限定為2017年至2023 年.本研究擬定兩項文獻納入標準:(1)納入文獻為美國數據管理需求調查研究;(2)文獻內容包含數據管理實踐、數據素養或數據需求的調查研究.根據這些納入標準篩選出有效文獻,并通過追溯其參考文獻和引證文獻進行查漏補缺,最終獲得12 篇納入文獻.

概括起來,美國科研數據管理需求調查主要涉及兩個主題:數據管理實踐、數據管理服務與教育期望.調研主題是對調研內容的匯總與分類,但僅依據寬泛的調研主題無法厘清具體的調研內容,有必要對調研主題進行再細化.本研究采用內容分析法,深入閱讀文獻,從中提取出10 個指標,通過分析指標間內在關系,將其聚類并劃歸入兩個主題中,美國數據管理需求調研具體內容見圖1.圖2 呈現了調研內容的數量分布,從中可以發現,美國調研案例中出現最多的前四項依次是:數據共享、數據存儲、數據收集和數據組織,這四項常規的數據管理生命周期活動,構成了科研數據管理主流程,而數據素養教育和數據分析的關注度最低.

圖1 美國科研數據管理需求調研內容

圖2 美國科研數據管理需求調研內容數量分布

2 美國科研數據管理調查結果與需求分析

2.1 科研人員數據管理實踐

(1)數據管理計劃.數據管理計劃是基金組織要求受資助者制定的數據管理方案,說明在科研活動中如何創建、管理、分析、保存和共享數據.數據管理計劃知識與經驗方面,克萊姆森大學2021 年調查結果顯示約有50%的受訪者撰寫過數據管理計劃,與2016 年的調查數據(6.5%)相比無疑是一個進步[12];而具備數據管理計劃知識的研究生相對較少[12],得克薩斯農工大學僅有3.1% 的研究生制定過數據管理計劃[13].數據管理計劃求助途徑方面,克萊姆森大學受訪者稱最有可能向同事尋求幫助(45.2%),其次是資助機構指南(14.6%),向圖書館請求援助僅占9.4%[12],然而,對于圖書館而言,數據管理計劃是一項易于提供服務和拓展的領域,是圖書館服務新的生長點.

(2)數據收集.數據收集是通過調查、實驗、觀測、模擬等方式生成原始數據,或通過公開或非公開渠道獲取數據.數據生成方面,美國調研重點在于產出數據的類型、格式和數據量,調查發現科研人員生成的數據類型主要有:數字文本和數字數據、PPT、統計數據和視聽數據[12];數據格式因學科而異,人文學科科研人員最常創建和使用的是文本數據,而其他學科生成最多的是表格數據[14];三項調查結果顯示,大多數研究人員產生的數據量不足100GB[12,14-15],與之前的研究結果相似[16],說明科研人員所創建的數據量大小適中,并不屬于“大數據”.數據獲取方面,現階段越來越多的科研人員利用二手數據來充實研究工作,如元分析,只有克萊姆森大學關注了數據集獲取,43.7%的受訪者在研究中引用過數據集,獲取途徑包括向同行請求共享、政府網站、圖書館數據庫以及追蹤其他文獻的引證,值得注意的是,73.5%的受訪者表示愿意通過圖書館使用數據集[12].

(3)數據組織.數據組織是對數據進行記錄、描述和有序組織的過程,確保數據能夠被他人理解、查找和再利用.調研揭示了科研人員在數據組織方面存在的問題:①科研人員普遍缺乏元數據知識[13]和經驗[13-14],不了解學科元數據標準[17],佛蒙特大學調查發現,僅有2.2% 的人采用了諸如都柏林核心集(DC)、生態元數據語言(EML)等公認的元數據標準,而另一些人則使用個人自創的標準來描述數據,通常是自述文件或編碼簿[15];②科研人員傾向于根據個人偏好來組織數據[18],尤其是研究生們各自為政,缺乏統一的數據組織實踐,導致項目組內難以對數據進行高效的關聯和管理,有學生指出小組成員的數據版本跟蹤的標識符并不統一,使得他們接手后會通常只能優先查看最近的文件,他們意識到這可能是低效的做法[13].

(4)數據分析.數據分析指對數據進行清洗、處理和分析,挖掘有價值的信息,并以圖表的形式直觀展示出來.在現有的調研案例中,數據分析話題的關注度最低,得克薩斯農工大學調查發現,大部分研究生表示他們更依賴于使用專有軟件進行數據分析,因為他們在院系開設的統計學課程中使用過SPSS 和STATA 等專有軟件,然而,他們同時也表示,如果能夠獲得適當的學習資源,他們愿意將開源分析軟件應用于未來的研究中[13].另一項調查顯示,生物學家和獸醫病理學家通常使用特定領域的軟件(如MacVector、MAKE、FlowJo 等)來查看和分析特定數據,包括細胞數據、顯微鏡數據和掃描圖像,而生物統計學家更偏愛主流的統計工具[18].

(5)數據存儲.數據存儲指以合適的存儲介質來短期備份或長期存檔數據,確保數據不會丟失和損壞.關于存儲介質,調查結果一致表明:科研人員最常使用的存儲選項包括電腦、外部存儲設備、云存儲[14,19],較少選用數據存儲庫,其中,10.8%的受訪者使用外部數據存儲庫,僅有1.6% 的人使用圖書館機構存儲庫[14].當被問及克萊姆森大學是否應設立一個數據倉儲庫時,80%的受訪者表示支持,但同時也有許多人對存儲庫的功能表示擔憂[12].阿肯色大學調研發現,科研人員在數據備份和數據保存時有不同的選擇策略,在數據備份時他們會優先選擇便利的介質,如云存儲、外部硬盤、辦公室電腦、U盤等,而在數據存儲時會考慮到數據丟失風險,更傾向于選用穩定的介質,如:辦公室電腦、實驗室電腦、云存儲等[19].綜上,科研人員偏好易于使用且熟悉的數據存儲介質.此外,一些案例調查了科研人員的數據備份與數據存檔意識,大多數科研人員具有較強的數據備份意識,他們通常依賴于電腦的每日或每周自動備份,或將數據備份在外部硬盤中,而小規模研究項目的科研人員往往不太重視數據備份,盡管他們認識到備份的重要性,但例行程序并不到位[17].另外,研究生缺乏數據長期保存和數據安全的意識,他們中很少有人考慮到保留數據以供長期使用[13].

(6)數據共享.數據共享指標包括數據共享意愿、數據共享層次及數據共享方式等.共享意愿方面,美國某公立研究型大學的調查顯示,52.2% 的受訪者愿意與他人分享自己的研究數據[14],佛蒙特大學定性和定量數據也表明,研究人員愿意在研究小組之外分享數據,然而,另一項調查發現,大部分科研人員不愿意公開共享數據或在項目團隊之外共享數據[18],且共享意愿存在學科差異,人文科學[14]、社會科學[15]領域的科研人員共享意愿較低.共享層次方面,克萊姆森大學的調查揭示了數據共享的知識差距,只有22%的人在存儲庫或其他公共場所公開分享,28.7% 的人會在要求或請求時共享,而43.6%的人從不共享,經過三輪調查,始終共享的比例顯著增長,從2012 年的9% 增長到2016年的15.1%,再到2021 年的22%[12].共享方式方面,美國某公立研究型大學受訪者最常使用的方式是個人請求共享(68%),其次是作為期刊出版物的補充材料(43.3%)或在網站上發布數據(20.6%)[14],佛蒙特大學和美國國立研究院的調查結果與之相似,期刊發表是最常見的數據共享方法[15,18].然而,盡管數據存儲庫具有數據共享和數據保存的雙重功能,但并沒有被廣泛用作數據共享的手段[13-14].

(7)數據素養教育.數據素養教育是科研人員通過多種途徑獲取數據素養技能提升教育.一項針對科學會議上81 位科學家的調查發現,68%的受訪者表示并未接受過數據管理培訓[20].關于數據素養教育途徑的調查主要集中在研究生,研究生表示自主學習是他們獲取數據管理技能最常用的手段,而教師則認為研究生主要通過教師或顧問的指導來學習數據素養,師生一致認為:朋輩學習與課程也是數據管理技能學習的常見方式,而圖書館和信息技術則較少作為教育來源,另外,教師還指出專業會議、研討會、項目工作以及資助和倫理審查委員會培訓也是學生學習數據管理的途徑[21].研究生的信息尋求行為通常局限于研究環境內,他們更傾向于咨詢導師、其他教師、實驗室管理者和同行[22].綜合來看,研究生主要通過向內汲取的方式接受數據素養教育.此外,得克薩斯農工大學的調研指出數據素養教育存在的不足:由圖書館提供的數據管理培訓主要針對教師、研究人員和圖書館員,而研究生和研究助理作為接觸數據最多的人,卻缺少數據管理培訓,因此,教師需要鼓勵或要求學生在入職時接受數據管理入門培訓,以確保每個人都遵循統一的標準和程序[12].

2.2 科研人員數據管理服務與教育期望

數據管理服務與教育期望是在調查中由科研人員主動反饋的、針對數據管理服務和教育提出的解決方案式的需求,主要包括3 個指標:數據管理挑戰、數據管理服務期望和數據素養教育期望.

(1)數據管理挑戰.調查結果顯示,研究人員在數據管理過程中遇到的挑戰主要有:數據分析[21-22]、數據組織[17,21-22]、大型數據集存儲[17]、數據共享[17]以及處理學生離職或畢業時遺留的數據[17]等.教師和研究生在數據管理挑戰的認識上有所差異,教師認為最大的挑戰在于數據監管與重用以及數據保存,而研究生則認為數據處理與分析、數據規劃與組織是更大的挑戰[21].研究生指出數據分析的困難主要在于:缺乏分析技術知識、不熟悉分析方法和分析工具的使用,以及統計建模能力和數據解析能力較弱,而數據組織的挑戰在于:組織工具技術障礙、工作量大且耗時、難以保持一致和準確[22].數據共享的過程中,最常見的障礙是缺乏足夠的文檔和元數據[18],其次是缺乏共享數據所需的專業知識[12,14]、缺少共享數據所需的時間和精力[12,14]、擔心被 誤解誤 用[14-15]、知識產權問題[14-15]、機密或專有信息[14-15]以及保護隱私信息[12]等.

(2)數據管理服務期望.根據得克薩斯農工大學的調查,研究生對大學圖書館數據管理服務的認知程度不高,超過一半的受訪者表示從未聽說過這項服務,只有三成的受訪者知道數據管理服務,大多數是通過其他教師、學生和工作人員了解的,少部分是通過研討會得知的[13].從事大規模研究的教師比小規模研究的教師更清楚大學圖書館提供的數據服務[17].

佛蒙特大學調查發現,受訪者對圖書館技術性數據服務(如數據分析和統計支持服務、信息門戶網站、數據管理模板和工具)的需求較高[15],但對咨詢性數據服務(如數據管理咨詢和研討會)的需求較低.美國某公立研究型大學受訪者希望在以下領域獲得幫助:量化分析、數據可視化、查找合適的存儲庫、數據管理計劃、完成資助者共享數據的任務、數據收集等,最不需要支持的服務是數據組織和查找現有數據集[14].克萊姆森大學教師和研究生最感興趣的前四項數據服務基本相同,分別是選擇數據存儲庫、數據共享教育、項目前數據管理培訓、編寫數據管理計劃,不同之處在于:教師希望獲得數據長期存儲與獲取的幫助,而研究生則傾向于查找數據集并應用于研究中[12].綜合來看,數據管理服務需求主要集中在數據存儲、數據分析與可視化、數據共享、數據收集和數據管理計劃等領域,而且數據管理服務需求在不同群體間存在一定差異,因此在提供服務時應有所側重,以滿足不同用戶群的需求.

(3)數據素養教育期望.主要從教育主題和教育方式兩個方面對數據素養教育期望展開調查.期望的教育主題方面,阿肯色大學受訪者表示有興趣參加以下主題的培訓:數據管理計劃、日??蒲袛祿芾?、準備數據并創建元數據、傳播數據等[19];而在社會科學領域,研究生感興趣的培訓主題是:數據文檔和組織、數據版本跟蹤、使用開源軟件進行數據分析,以及數據保存和安全[13].研究生更傾向于參加與研究行為密切相關的培訓,如數據組織最佳實踐、數據共享、發表數據集等,這與他們在項目期間承擔的數據管理職責相對應[21].期望的教育方式方面,夏威夷大學馬諾阿分校的師生希望能在線觀看教學視頻、PPT 和文本等異步學習材料,且學習模塊應設計成小段,每個模塊的學習時間少于2 小時[23].科學家們更喜歡研討會和網絡研討會,而對面對面指導或者書面輔導不太感興趣[20].這些需求和偏好都為數據素養教育指明了方向.

2.3 科研人員數據管理行為特點與需求分析

綜合上述調研結果,探討美國科研人員數據管理行為特點,從中析出具體的數據管理需求.

(1)科研人員數據管理行為呈現出個性化及隨意性特點,這在數據組織和數據存儲兩個環節中尤為明顯.由于缺乏數據管理政策、技能培訓、基礎設施等方面的規范指引,項目組成員按照個人喜好和習慣制定多種數據管理策略,導致組內數據管理工作分散且無序.在數據存儲方面,科研人員更偏好于使用熟悉且易用的存儲介質,而很少選擇容量更大、功能更豐富的存儲庫,這對數據的安全性、長期維護及共享造成了不利影響.

(2)科研人員在數據管理方面的知識相對薄弱,主要表現在缺乏數據管理計劃、元數據、數據分析、數據存儲、數據共享、數據服務等方面的專業知識,導致數據管理效果欠佳.因此,學校有必要強化數據管理教育,幫助科研人員重建數據管理知識體系.

(3)科研人員對數據存儲量的需求以小數據為主.當前大多數科研人員持有的數據量較少,對數據存儲空間的要求也相對較低,“小數據”研究的一個特點是數據存儲過度依賴電腦、筆記本電腦或外部硬盤[15],然而,這些存儲設備無法滿足大型數據集的存儲需求.因此,部分科研人員正在尋求大型數據集的解決方案.

(4)科研人員的數據共享意愿和共享層次普遍不理想,大多數選擇局部共享或者完全不共享,這主要歸因于他們不了解數據共享的好處、缺乏相關專業知識以及擔心數據被誤解誤用和泄露隱私信息等問題.同時,數據共享所需的時間成本和精力成本也較高,這也是他們不愿意共享數據的一個關鍵因素.

(5)了解和主動使用圖書館數據管理服務的科研人員較少,他們主要關注與項目啟動和研究進展直接相關的數據服務支持,如數據管理計劃、數據收集、數據分析、數據存儲、數據共享等,同時,與咨詢性數據服務相比,他們對技術性數據服務的需求更大.

(6)科研人員缺乏數據素養教育,其數據管理知識與技能主要來自于非正式的教育渠道,如自學、組內指導與咨詢、朋輩學習等.在培訓主題方面,他們更感興趣的是與研究行為相關的主題,更喜歡在線提供異步學習材料、網絡研討會、研討會等教育方式.

(7)科研人員的數據管理實踐和需求受到學科、項目規模和學術角色等因素的影響,因此,學校應針對各學科各類型研究人員的需求,開展分類分級的數據素養教育.

綜合上述分析可知,科研人員數據管理需求主要集中在以下四個方面:①數據管理服務的需求,科研人員對能切實解決數據管理難題的數據服務具有最高優先級需求,而且希望加強數據服務的宣傳營銷;②基礎設施保障的需求,包括能同時滿足小數據研究和大數據研究的數據存儲庫、集成數據管理資源和工具的數據管理平臺等;③數據素養教育的需求,科研人員希望獲得實用性強、精準化的數據素養教育;④支持數據共享的需求,科研人員作為數據生產者和數據消費者都有共享數據的需求,希望適時獲得幫助.

3 啟示

3.1 強化數據服務營銷,提供高質量數據管理服務

調查顯示大多數科研人員對數據管理服務并不熟悉,也很少利用圖書館提供的數據服務,遇到問題時很少向圖書館員尋求幫助.為提高用戶對數據管理服務的認知度和使用率,圖書館應拓寬數據管理服務的宣傳渠道,采用院系試點、走訪項目組、發放調查問卷、宣傳手冊、海報、網站公告、微信公眾號、QQ 群、微信群、電子屏、學術互動社區等多種方式進行宣傳,以加強數據管理服務的宣傳營銷.

科研人員在數據管理方面的薄弱環節、挑戰和期望正是圖書館拓展服務的切入點,包括數據獲取、數據組織、數據分析、數據存儲以及數據共享等.圖書館應以用戶需求為導向,針對用戶在數據管理工作中遇到的難題,挖掘新的服務生長點,不斷豐富服務內容和服務形式,進一步拓展數據管理服務的廣度.同時,真正高質量的數據管理服務應貫穿科學研究全過程,圖書館應重點發展嵌入式數據管理服務,融入用戶科研環境和工作流程,即時捕捉用戶數據需求,提供深層次、精細化、個性化的數據服務,推動數據管理服務從廣度向深度延伸.

3.2 充實數據資源,建設便捷化的數據管理平臺

調查發現科研人員數據組織和數據存儲行為具有個性化、隨意性的特點,這與缺乏完善的基礎設施有關,因此,圖書館應著重加強校園數據管理基礎設施的建設,主要從以下兩個方面構建一站式數據管理平臺:一是建設資源配置完善的集成式數據管理服務平臺,我國高校圖書館應通過按需購買或搜集數據集等方式加強數據資源建設,在現有的網站基礎上,將數據管理作為一個獨立的子模塊,集成數據集、數據管理培訓資源、數據服務內容、數據管理工具與軟件等資源,實現數據資源一站式發現與獲取,提升數據資源與服務的利用率;二是建設易用的數據存儲庫,易用性是影響科研人員進行數據存儲決策的關鍵因素,圖書館在建設數據存儲庫時,必須重點解決系統易用性問題,此外,圖書館還應向科研人員廣泛宣傳存儲庫的獨特功能,包括:能同時滿足小數據研究和大數據研究的數據備份與保存、保護數據隱私、數據共享、數據重用等.

3.3 完善內容建設,構建分層次、多形式的數據素養教育體系

根據調研結果,大部分科研人員并未接受過數據管理培訓,但他們對此類培訓比較感興趣,并積極投選所需的數據管理培訓主題.圖書館應以普及數據管理知識、提升數據素養與技能為目標,根據用戶的需求和特征,完善數據素養教育內容建設,構建分層次、多形式的數據素養教育體系.第一,教育內容方面,在系統覆蓋數據管理全生命周期內容的基礎上,注重實踐,將教育重點放在用戶當前或不久的將來可以實施的內容上.第二,教育方式方面,除了傳統的課程、培訓、研討會、沙龍、面對面指導等線下的方式,還應充分利用網絡課程、在線提供學習資料、在線指導、數據管理平臺等線上的方式,圖書館應采用線上線下相結合的方式開展數據素養教育,以擴大教育的覆蓋面和影響力.第三,教育層次方面,圖書館應針對各學科各類型用戶的需求和行為傾向,分類開展差異化的數據素養教育,如為新入學的研究生開展數據管理入門培訓,為科研團隊提供嵌入式數據管理培訓.

3.4 多措并舉,實現更大范圍的數據共享

針對科研人員的數據共享意愿和共享層次普遍不高的現象,圖書館應采取多種措施促進數據共享:首先,圖書館可以與校內其他部門合作建設數據共享平臺,整合科研數據共享政策、學科數據共享規范、數據共享實踐優秀案例、數據存儲共享平臺等信息,為用戶提供便捷的數據共享資源導航.其次,圖書館可以與學??蒲胁块T聯合制定數據共享激勵機制,在學術任命、晉升、認可和獎勵等方面對共享數據者予以激勵,以提高用戶共享數據的積極性,并增強機構數據存儲庫的數據完整性.最后,圖書館可以通過提供數據共享援助,強化用戶對數據共享的理解和認同,重點為用戶提供元數據方面的培訓與支持,元數據是影響數據共享與可訪問性的關鍵因素,科研人員作為數據生產者和數據消費者都會面臨元數據描述與理解的挑戰,圖書館應提供必要的協助,幫助科研人員開展元數據描述與數據文檔利用工作.

猜你喜歡
數據服務數據管理科研人員
科技部等五部門聯合發文開展減輕青年科研人員負擔專項行動
地理空間大數據服務自然資源調查監測的方向分析
企業級BOM數據管理概要
定制化汽車制造的數據管理分析
科研人員破譯黑豬肉特征風味物質
海洋環境數據管理優化與實踐
CTCS-2級報文數據管理需求分析和實現
治療艾滋病,中國科研人員有了新發現
廣東公安科研人員風采
如何運用稅收大數據服務供給側結構性改革
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合