?

中國社科期刊關聯數據匯交與共享模式研究

2024-03-19 00:37魏嘯天王晨陽周榮庭
中國科技期刊研究 2024年2期
關鍵詞:可用性社科關聯

■魏嘯天 王晨陽 周榮庭 周 慎*

1)中國科學技術大學人文與社會科學學院,安徽省合肥市徽州大道1129號 230051

2)沉浸式媒體技術文化和旅游部重點實驗室(安徽新華傳媒股份有限公司),安徽省合肥市金寨路96號 230026

3)中國科學技術大學計算社會科學與融媒體研究所,安徽省合肥市徽州大道1129號 230051

隨著數據密集型科研范式的興起,社科研究愈加依賴對科學數據的搜集、處理與分析,科學數據逐漸成為貫穿社科研究全過程的核心要素之一[1-2]。社科研究數據的合理保存與管理能夠良好地反映科研過程的完整性,有助于提高科研透明度與規范性,提升作者思想表達的完整性和抵達度,降低數據造假等學術不端風險事件的發生概率[3-4]。我國正在不斷加強期刊論文關聯數據管理和開放共享工作。2022年,中國科協辦公廳及中國科學院辦公廳聯合發布《關于組織開展期刊論文關聯數據匯交工作的通知》(以下簡稱《通知》),要求作者在向國內科技期刊投稿時匯交科研過程中涉及的非敏感、非涉密原始數據及其衍生數據,以確保論文關聯數據保存準確、完整,做到科學數據可查詢、可回溯[5]。在自然科學、工程技術科學等領域,我國科技期刊對關聯數據匯交和共享開展了有益的探索[6-8],但社科領域相關工作仍處于起步階段[3,9],僅有部分學者對我國人文社科科學數據匯交、管理與共享的現狀進行分析[10-11],尚未在借鑒國際經驗的基礎上,提出符合我國國情、社科研究特點、成體系的期刊論文關聯數據匯交與共享模式。本文將在此方面發力,以期為我國社科期刊開展關聯數據匯交和共享工作提供參考。

1 研究對象與研究方法

當前主流的科研數據共享包括3類:一是不依賴出版物的獨立數據共享,即在數據中心、數據存儲平臺存儲發布數據,如在國外的figshare、Open Science Framework、UK Data Service等,以及我國的國家科學數據中心、中國科學院科學數據庫等數據中心(數據存儲平臺)發布和共享的數據[12];二是附屬于出版物的數據共享,即將數據作為出版物(論文)的附屬或輔助材料予以共享,本研究所探討的即為此類數據共享;三是作為出版物本身的數據出版,主要代表形式是數據論文,如在《中國科學數據(中英文網絡版)》、ScientificData等數據期刊和其他期刊出版的數據論文[13-14]。

借鑒先前學者的研究方法[13,15],采用“專家咨詢+文獻梳理+網絡調研”的方式進行研究,以確保盡可能全面地梳理國內外社會科學期刊關聯數據匯交與共享的模式。通過專家建議、綜合調研梳理和模擬投稿,發現國外社會科學期刊通常遵循所屬出版社的數據共享規定,為此選擇Elsevier、Springer Nature、Wiley、Taylor & Francis、SAGE等國外主流出版社作為研究對象。在國內期刊選擇方面,選擇《中國工業經濟》《數量經濟技術經濟研究》《中國經濟學》這3種執行數據共享的期刊作為研究對象。通過全面梳理上述出版社、期刊的數據政策、數據匯交要求等資料,分析其論文關聯數據匯交與共享的流程與要素。

2 國內外社科期刊論文關聯數據匯交與共享的流程與要素對比

期刊論文關聯數據匯交與出版的基本流程(圖1)涉及數據定義、數據描述、數據匯交、數據保存、數據審核、數據出版、數據引用和復用等要素(表1)。

表1 期刊論文關聯數據匯交與共享的關鍵要素

圖1 期刊論文關聯數據匯交與出版的基本流程

(1)數據定義。調研的國外出版社和國內期刊對論文關聯數據具有一致定義,即數據并非簡單數字意義上的“數據”,而是支撐論文發現的所有元數據、過程數據和支撐工具。具體而言,論文涉及的原始或處理過的數據文件、軟件、代碼、模型、算法、協議、研究方法等均屬于關聯數據的范疇。但國內外定義也略有區別,如Elsevier將作為論文正文的某一部分而提交和發表的數據或其他材料排除在關聯數據之外,而《數量經濟技術經濟研究》《中國經濟學》等將因刊文篇幅所限而省略的內容也作為關聯數據的一部分??赡茉蛟谟?,SCI、SSCI收錄期刊通常將該內容置于“補充材料”(Supplementary Materials、Appendix)之中,而國內期刊將關聯材料等視為“附錄”材料的一部分。

(2)數據匯交與共享政策類型。數據共享許可條件指允許其他研究者通過何種協議和渠道使用數據。在此方面,國外主要出版社均制定了詳細的共享政策等級,通常分為4類或5類,如Springer Nature的數據政策等級包括4類,Elsevier、Taylor & Francis、SAGE等分為5類。數據匯交的要求也隨數據政策等級而異,Wiley出版社對4類數據政策等級中的數據可用性聲明、數據共享、數據的同行評審要求等作了明確的區分和規定,其中,類型2和類型3是Wiley旗下期刊普遍采用的數據政策(表2)。國內3種期刊則為鼓勵共享或強制共享,未制定更具針對性的細分等級。對于敏感數據,國外出版社均規定可不共享,但鼓勵作者盡可能將數據存放在資源庫中,并通過對數據進行匿名處理、設置可控的訪問限制、使用可信研究環境或數據安全平臺、共享元數據并對過程數據進行脫敏處理等方式最大限度地共享數據。國內期刊也有類似規定,如《數量經濟技術經濟研究》規定,若因原始數據涉密或其他原因不宜公開,請告知編輯部并提供中間環節數據或提供經過一定的技術處理后的數據,以及詳細的描述性統計等信息。

表2 Wiley出版機構數據政策等級及匯交要求

(3)數據存儲和共享平臺。國外出版社均向作者推薦了一批適合期刊關聯數據的存儲庫,并在其發布的數據政策中提供了推薦列表,包括figshare、Open Science Framework、UK Data Service、Harvard Dataverse、Zenodo、FAIRsharing、4TU.ResearchData等。在此基礎上,各出版機構還推薦了針對性的數據平臺,如Springer Nature推薦社科領域的數據存儲于Open Science Framework、UK Data Service、Harvard Dataverse等平臺。SAGE推薦作者使用Code Ocean平臺,該平臺支持多種編程語言,作者可便捷地共享研究所用的代碼,并獲得代碼和數據的數字對象唯一標識符(Digital Object Unique Identifier,DOI),評審專家和其他人可通過該平臺審核并復現代碼的結果。Elsevier向作者提供Hivebench平臺,通過其內置的文本編輯器,作者可以隨時添加或更新實驗內容和結果,便于同行評審和共享過程數據。國內3種期刊規定將數據在期刊官網、微信公眾號、中國知網進行存儲和共享,未向作者提供或推薦數據存儲平臺、數據中心。鑒于數據存儲平臺、數據中心的專業性、通用性、安全性,建議我國社科期刊依托專業的數據倉儲庫,如中國科學院計算機網絡信息中心自主研發的Science Data Bank(科學數據銀行,又稱Science DB),提升論文關聯數據的可發現性、可引用性與可重復使用能力,提高數據存儲質量。

(4)數據共享規范和可用性聲明。數據共享規范旨在告知作者以何種標準規范撰寫和提交稿件及關聯數據。國外出版社和國內期刊均在“投稿指南”中對數據共享規范作了明確規定,要求作者以此進行排版和投稿。Wiley還開發了“作者合規工具”(Author Compliance Tool),便于作者以符合期刊要求的范式共享數據。數據可用性聲明旨在明確告知讀者論文的關聯數據可在何處獲得,可在什么條件下獲得,某些期刊還要求附上數據集鏈接。國外出版社均明確規定了數據可用性聲明的撰寫要求,如Wiley規定作者須以“支持本研究結果的數據可在[資源庫名稱(如figshare)中公開獲?。?,網址為http://doi.org/[doi],參考號為[參考號]”的標準形式撰寫數據可用性聲明。國內期刊在數據可用性聲明方面缺乏規范性,3種期刊的印刷版論文中均無數據可用性聲明。

(5)數據標識、共享協議和復用要求。國外出版機構均為數據提供DOI,以確保數據的唯一標識性、可訪問性、可發現性和可引用性。在數據共享方面,出版機構均遵循國際主流的開放許可協議,作者可選擇相應的協議來共享研究數據。Elsevier等出版機構建議作者使用CC BY 4.0協議①CC BY 4.0(Creative Commons Attribution 4.0 International License)協議又稱創意共享協議,即任何人都可以自由分發、傳播、修改本創作,但必須保留創作人對原作品的署名,且不得增加額外限制。,以最大限度共享其數據。在數據的引用和復用方面,國外出版機構均規定了明確的引用格式,如Springer Nature要求作者使用DataCite推薦的最低限度信息格式即“數據集創建者、數據集標題、出版商[資源庫]、出版年、標識符[如DOI、Handle或ARK]”引用或復用數據。國內3種期刊均未給數據提供DOI,未明確共享協議,僅規定了數據復用時的推薦引用格式。

(6)數據的同行評審和審核。數據審核包括形式審核和內容審核兩方面。在形式審核方面,除《中國工業經濟》外,國內外調研對象均要求編輯在初審環節即審核作者提交的關聯數據,包括數據是否形式完整,是否符合期刊的格式要求,是否提供所要求的文本、圖表、工具、代碼等。在內容審核方面,國外出版社會根據數據共享政策,決定審稿人是否對數據進行內容審核。如Wiley出版社對于類型1~3的數據,不強制要求審稿人進行內容審核,對于類型4則要求強制共享數據,并且數據須經同行評審(表2)。具體而言,對類型4的數據,審稿人要對關聯數據的質量及是否可復制進行審核。審核數據質量包括關聯數據與論文呈現的結果是否一致(如工具是否一致、樣本量是否匹配、研究方法是否匹配等);審核是否可復制包括數據獲取是否與數據可用性聲明的描述匹配、支撐性工具和代碼是否一并匯交、數據是否可供同行復現、數據是否可供引用和復用等。建議我國社科期刊在制定詳細、具體的數據共享政策的基礎上,分類對數據進行形式審核和內容審核。

3 我國社科期刊數據匯交與共享的可行模式探索

3.1 我國社科期刊關聯數據匯交與共享的建議

通過對國外學術期刊數據匯交與共享政策的梳理和對比,結合我國社科期刊研究論文特點,對構建我國社科期刊關聯數據匯交與共享模式提出如下建議。

3.1.1 擴大關聯數據的定義范圍

隨著數據密集型研究范式的興起,社科知識的發現與創造更多地建立在對世界的數據化感知及基于研究問題的數據收集、匯總、處理與分析之上。社科研究的特殊之處在于研究者對社會的觀察、感知會產生許多感性材料或感性數據,這種數據不僅僅是“數字”意義上的“數據”,而是更多地以多模態形式存在,包括文本、圖像、視頻、音頻等。這些數據本質上也是社科數據的一部分,都是對客觀世界的描述,具有更強的建構性和發散性。此外,在技術的推動下,人工智能生成內容(Artificial Intelligence Generated Content,AIGC)將影響人們對于社會信息環境的思維方式與認知行為[16]。社科研究中研究者觀察、感知社會產生的感性材料,如研究起因與研究思路,將會受到生成式人工智能的影響。因此,研究者與生成式人工智能交互所產生的內容也是社科期刊關聯數據匯交與共享的特殊部分。

建議我國社科期刊在制定關聯數據匯交和共享的相關政策中,擴大關聯數據的定義范圍,鼓勵研究者匯交和共享多模態的感性材料和感性數據。如此,其他研究者能夠將相關數據加工或處理成超越原始論文的、具有其他角度或層面的有價值、有意義的信息,再通過進一步的分析與提煉,得到認識主體對一般事物的存在方式和運動狀態、變化規律的抽象化描述的知識,實現數據的再建構和再利用。

3.1.2 劃分契合社科研究特色的關聯數據匯交與共享政策類型

期刊編輯部作為期刊論文關聯數據匯交與共享工作的具體實施者,應及時制定并廣泛宣傳其數據匯交與共享政策,寫明數據服務平臺的使用方法,以及匯交數據的類型與要求。根據我國社科領域研究現狀,建議將關聯數據的匯交與共享程度從低到高分為6類:類型1,數據匯交與共享不適用,即研究沒有數據,或文章完全是理論研究;類型2,鼓勵數據共享與數據引用,作者可選擇是否提供數據可用性聲明;類型3,期望數據共享與數據引用,必須提供數據可用性聲明;類型4,強制數據共享與數據引用,必須提供數據可用性聲明;類型5,在類型4的基礎上,強制要求作者進行數據匯交,且數據需通過同行評審;類型6,強制數據匯交與引用,必須提交數據可用性聲明。論文關聯數據存在高度敏感性,或有損道德與法律標準,作者可不共享數據或設置可控的訪問限制,但需要匯交數據至編輯部,并通過同行評審。根據Springer Nature、Elsevier、SAGE等出版社的規定[17-19],結合現階段我國社科期刊的刊文類型,大多數期刊適用于類型1~3,經濟管理等領域涉及經濟活動規律、行為研究及預測研究的論文適用于類型4,心理學領域涉及腦科學研究的論文適用于類型5和類型6。

3.1.3 引入多模態關聯數據的匯交與審核方法

針對社科領域關聯數據的多模態特性,建議社科期刊在數據匯交與審核流程中引入多模態大語言模型(Multi-model Large Language Model,MLLM)輔助方法。MLLM通常以大語言模型為基礎,通過融入其他非文本的模態信息完成各種多模態任務。其支持多模態輸入,研究者可以通過更為靈活的方式輸入和上傳研究中的非文本信息。在數據的形式審核中,MLLM能夠識別匯交數據的類型、格式,檢測匯交數據的完整性、可訪問性,以及是否提交數據可用性聲明,減輕編輯負擔。在數據的內容審核中,MLLM能夠快速理解和描述非文本數據中的信息,總結匯交數據與研究論文的相關性,節約外審專家的審稿時間和精力[20]。

3.1.4 明確數據共享規范

一方面,期刊編輯部可提供標準的數據可用性聲明范本。數據可用性聲明應包含如下內容:若數據適用于共享,應明確數據的獲取、處理與存儲方式,訪問鏈接,數據的唯一標識符,打開或使用數據的軟件或工具名稱等;若數據不宜共享或存在訪問限制,作者應寫明不宜共享的原因,例如數據共享受第三方限制、數據為敏感數據等。另一方面,建議期刊編輯部在規定數據復用推薦引用格式的同時,為共享的關聯數據提供DOI,并明確共享協議。

3.2 我國社科期刊關聯數據匯交與共享的可能性模式

綜上所述,本文構建出我國社科期刊關聯數據匯交與共享的可能性模式(圖2),該模式包括以下環節。

圖2 社科期刊關聯數據匯交與共享基本流程

(1)數據生成、管理與匯交。研究者通過與世界的互動產生感性數據,并開始科學研究。在研究過程中,論文作者應制定數據管理計劃,包括對原始數據、過程數據、衍生數據、代碼、多模態信息等進行適當的保存與管理,規范數據文件格式,依照投稿期刊的關聯數據匯交與共享政策,明確關聯數據匯交與共享的類型,進行數據匯交。

(2)數據的形式審核。責任編輯應在論文初審、初校階段完成對數據的形式審核,主要包括審核數據是否已上傳、數據格式是否正確、上傳數據是否可訪問、數據可用性聲明是否已提交等。

(3)數據的內容審核。外審專家作為論文質量的把關人,應審核所提交數據的完整性、真實性、準確性、科學價值、與論文的關聯性等。對于涉及隱私、涉密的數據,外審專家應及時聯系責任編輯,要求作者提供證明材料,并依照相關法律法規、學術與行業規范等要求進行審核。

(4)數據的共享與復用。作者或編輯部應同步將數據上傳至公開數據庫或數據平臺,作者應在我國法律框架與科學倫理的道德規范下,與數據平臺共同簽訂數據使用許可協議,并允許期刊和其他研究者依照數據可用性聲明和許可協議數據進行傳播和再利用。期刊編輯部應為共享的關聯數據提供DOI,并明確共享協議,以及做好服務平臺上作者共享數據的管理和監測等工作。

4 結語

《關于推動學術期刊繁榮發展的意見》《國家“十四五”時期哲學社會科學發展規劃》等政策文件明確提出,要堅持追求卓越、創新發展,打造一批世界一流、代表國家學術水平的社科名刊,為社科學術期刊高質量發展提供管理保證。隨著我國論文關聯數據與匯交相關工作的落實和深入,社科期刊應以構建關聯數據匯交與共享機制為抓手,完善期刊學術誠信控制機制,進而推動我國社科期刊卓越發展。本研究為我國社科期刊關聯數據與匯交構建了一個符合我國國情、社科研究特點、成體系的可能性模式,從數據生成、管理與匯交,數據形式審核,內容審核,數據共享與復用4個環節規范了社科期刊關聯數據匯交與共享的全流程。

本文的不足之處在于:(1)數據匯交與共享類型還需斟酌。因社科各領域期刊對于論文關聯數據的定義和要求不同,本文僅對關聯數據匯交與共享的類型進行了大致劃分,并未進行詳細探討。(2)關聯數據審核流程有待辨析。結構化數據與非結構化數據的形式審核和內容審核的區別很大,后續應進一步分析數據的審核方法與規范。(3)我國社科期刊開放共享與知識獲取體系建構的內容不足。本文僅借鑒國際經驗對我國社科期刊關聯數據匯交與共享模式進行構建,并未考慮我國學術期刊出版體系與國外出版發行體系的不同,后續應繼續開展更有針對性的研究。

猜你喜歡
可用性社科關聯
基于文獻計量學的界面設計可用性中外對比研究
社科成果展示
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
社科成果展示
基于輻射傳輸模型的GOCI晨昏時段數據的可用性分析
社科成果展示
“一帶一路”遞進,關聯民生更緊
奇趣搭配
智趣
人文社科
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合