基于多案例研究的生物醫學科學數據開放共享策略分析*

2024-03-15 09:40萬佳林賈曉峰胡志民

醫學信息學雜志 2024年2期

萬佳林賈曉峰胡志民

(1中國醫學科學院/北京協和醫學院衛生健康管理政策學院北京100730 2國家衛生健康委衛生發展研究中心北京100044)

1 引言

21世紀以來，科學數據與數據科學相互促進發展，共同推動科學數據的建設與開放使用。2022年12月《中共中央國務院關于構建數據基礎制度更好發揮數據要素作用的意見》創新性地提出數據資源持有權、數據加工使用權、數據產品經營權等“三權分置”的中國特色數據產權制度[1]，進一步推動數據要素化發展。2023年3月《黨和國家機構改革方案》提出組建國家數據局，負責協調推進數據要素基礎制度建設，表明中國將加快數據資源整合共享和開發利用，統籌數字經濟高質量發展[2]。

生物醫學是科學數據每日產出量最多的領域之一，數據具有類型多樣、數量巨大、應用價值高等特點。我國生物醫學科學數據建設仍處于政府牽頭的“量的堆積”階段，盡管規模已相當可觀，但數據質量、數據使用以及數據牽引的學術活躍度仍不足，僅依靠財政資金的建設模式難以實現科學數據中心的可持續發展。借鑒國外典型數據平臺的發展經驗，建設我國高質量生物醫學科學數據中心是一種可操作的方法，為此，本研究分析國外典型生物醫學科學數據平臺的開放共享管理與服務，總結其成功經驗，提出我國數據開放共享的策略性建議。

2 研究設計

2.1 研究方法

本研究采用多案例嵌入式研究方法。案例數量方面，多案例研究提供比單案例研究更多的數據量，有利于挖掘普遍性規律，增加結果說服力[3]。本研究中多案例提供了更多的研究素材，便于歸納不同類型科學數據平臺的共性或個性經驗。案例分析層次方面，不同于整體式案例研究以揭示整體屬性為目的，嵌入式案例研究通過簇群技術抽取出次級分析單位，通過考察主分析單位和次級分析單位開展研究[3]。本研究圍繞科學數據的開放共享，選取合適的維度(次級分析單位)拆解分析所選案例，使研究框架更清晰，研究目的更聚焦。

根據多案例研究的復制原則和研究目的，選取案例滿足以下標準。一是生物醫學領域具有較大學術影響力、數據資源豐富、知名度較高的科學數據平臺。二是平臺收錄不同類型的特色科學數據。三是在科學數據開放共享方面具有共性化或差異化的特點?；诖?，選取4個科學數據平臺作為案例分析對象：英國生物樣本庫(UK Biobank)、美國國家生物技術信息中心(National Center for Biotechnology Information，NCBI)、全球流感共享數據庫(Global Initiative on Sharing All Influenza Data，GISAID)、Cortellis藥物研發情報平臺(Cortellis Drug Discovery Intelligence，CDDI)，見表1。

2.2 分析維度

基于文獻研究，特別是以下兩個標準，自行制定分析維度。一是董瑞玉等[4]將數據共享機制分為資源整合機制、信息安全保障體系、信息訪問機制、獎勵激勵及配套管理制度。二是孫小康[5]分析國外數據共享政策時選取共享時間、共享范圍、共享模式、共享流程、認可或引用5個維度。結合研究目的，基于數據共享前、中、后3個環節，選取資源整合、開放級別、共享方式、數據增值4個維度構建案例分析框架，見表2。

表2 案例研究分析維度

3 研究結果

3.1 資源整合

3.1.1 數據來源數據資源整合發生在數據的產生、收集、加工過程中，據此可將數據來源分為內部產生數據、外部匯集數據、內部加工編輯數據和混合模式。UK Biobank數據來源于世界上規模最大的人類遺傳隊列研究，數據由區域分中心收集處理后匯總到平臺[6]，屬于內部產生數據的數據庫。依托隊列研究獲得數據有助于數據來源的穩定性和可持續性，還能以平臺的形式助力數據的下游研究和成果追蹤。匯集外源數據的數據中心不產生原始數據，僅承擔數據管理和維護職能，NCBI、GISAID和CDDI均屬于這類數據中心。相較GISAID由各研究機構和組織直接匯交，NCBI的數據來源更多元[7]，包括數據產生方直接匯交、與數據提供者和研究聯盟的合作或協議、內部人工篩選和梳理。2020年美國國立衛生研究院發布的《數據管理與共享政策》要求所有其資助研究產生的科學數據應匯交到已建立完備、聲譽良好的開放存儲庫[8]，使其資助產生的項目數據成為NCBI數據來源之一。CDDI數據來源于臨床試驗、藥物管線、政府文件、經銷信息等渠道，同時吸納了許多經典的藥物數據庫和補充信息[9]，CDDI沒有專門的外部數據匯交，而是基于商業競爭性和客戶需求，以資源整合和數據搜索為業務職能自主收集信息，如梳理行業新聞、整合政策規范、報道學術會議等[10]。

NCBI和CDDI存在不止一種數據來源：NCBI的參考序列數據庫(RefSeq)來源于對國際核苷酸序列數據庫的二次篩選[7]，是內部加工形成的精選數據庫；CDDI存在大量人工編輯、整合形成的數據情報，如Cortellis競爭情報數據庫(CCI)由500多名擁有4～7年生化、醫藥學經驗的專業人士編輯而成[9]。

3.1.2 數據資源整合機制指科學數據平臺以何種方式保障數據來源穩定和可持續，4個數據平臺既有共性又有差異，見表3。

表3 數據資源整合機制

3.2 開放級別

當前生物醫學科學數據平臺開放級別主要分為開放、限制、關閉3種。開放指用戶可以無障礙訪問數據平臺；限制指外部用戶滿足一定條件后可訪問，如注冊、付費等方式；關閉指僅面向內部用戶[11]。3種開放級別并不完全獨立，部分數據平臺同時包含開放數據和限制數據，實行不同的管理方式。

根據開放級別，NCBI平臺收錄的大部分數據庫對使用者幾乎無任何限制，屬于完全開放式，僅對涉及人類信息數據的受控訪問數據庫采取分級模型：無法進行個人識別的數據不采取任何限制措施；能進行個人識別的數據采用審核制并限時訪問[12]。UK Biobank、GISAID和CDDI均屬于限制級別，但開放方式和程度各異，見表4。UK Biobank僅面向科研人員開放，用戶需要通過身份認證才能訪問數據資源[6]。GISAID數據面向通過身份一次性認證、遵守《GISAID數據庫訪問協議》條款的所有自然人，無論是否是科研工作者[13]。CDDI具有商業性質，面向支付注冊費的用戶，受眾主要為醫藥企業、科研機構等大型群體對象。

表4 數據平臺開放級別及面向人群

3.3 共享方式

3.3.1 共享方法早期數據共享方法通常包括數據檔案、數據飛地、數據管理人員傳播、混合模式等[5]。近年來開放存儲庫的建設和發展越來越普遍，期刊紛紛強調論文關聯數據的提前共享，科研資助機構也陸續出臺政策促進數據共享，將數據匯交到開放的公共存儲庫已成為數據共享的主流方式。UK Biobank、NCBI、GISAID均屬于科學數據公共存儲庫，生產/匯交的數據經平臺審核、清洗或加工后，按發布期限要求對外開放共享。CDDI是企業所有的私有數據平臺。在生化藥物類數據領域，企業出資建立非公共存儲庫也是常見的共享方法之一。

3.3.2 共享流程數據共享流程主要指用戶需要遵循怎樣的流程才能獲取數據，以及數據使用協議和要求。涉及人類數據的科學數據平臺如UK Biobank和NCBI常采用“申請-審核”訪問機制。UK Biobank在用戶注冊并提供身份證明后，還需要提交一份闡述研究項目的申請書，經數據訪問分委會審核通過后才能獲取其數據和生物樣本[6]。NCBI絕大部分數據庫可以直接訪問，但其基因型和表型數據庫(Database of Genotypes and Phenotypes，dbGaP)需要受控訪問，采用“申請-審核”并“限定使用期限”保障數據安全[12]。不涉及人類數據的GISAID通過自行制定的《GISAID數據庫訪問協議》規范平臺的數據共享和使用行為，并明確數據訪問的流程和要求。該協議通過保證數據提供者的所有權并承認其貢獻鼓勵數據共享積極性，并要求數據提交方不附加任何限制[14]，確定了“身份認證+貢獻認可”的共享機制，通過實名制為病毒數據的共享使用提供良好范式。其他數據平臺也有相應的數據訪問和使用協議，研究人員使用UK Biobank數據須與平臺簽訂訪問協議，詳細說明使用數據目的等相關條款，并承諾不識別任何數據和樣本提供者[15]；dbGaP要求數據申請者嚴格遵守《數據使用行為準則和協議》，包括不復制和保存數據、不主動識別個體參與者、主動通報數據泄漏事件等[12]。CDDI通過提供數據資源和服務獲取利益，不以“無償”“公益”的數據共享為目的，繳納注冊費后用戶可享受平臺提供的全研發周期的數據和技術工具，而不需要提交額外的數據使用申請。

3.4 數據增值

科學數據平臺確立成果反饋機制追蹤數據轉化結果。UK Biobank規定所有數據使用應出于公益目的，且研究者應將數據二次分析結果及時反饋以用于未來研究[16]。此外，UK Biobank還會給予受試者有限的反饋。該反饋機制確保UK Biobank數據資源愈加完整豐富，數據可利用性增強，確保價值鏈條完整可追蹤。

數據平臺可通過支撐科技創新和成果轉化提升科學價值和經濟價值。NCBI除dbGaP外的30余個數據庫完全開放共享，產生數據資源“虹吸效應”[17]，進一步增加來源廣度、提高更新速度、助推平臺建設發展和數據的深度利用。GISAID支撐數據高通量提交、突發公共衛生事件監測、疾病風險評估和流感界創新研發的下游分析等工作[18]。

數據平臺積極促進科學數據的共享使用，營造數據良好生態。GISAID建立了一套獨特的病毒數據共享機制以鼓勵數據的快速共享，通過《GISAID數據庫訪問協議》明確數據訪問和使用規范，非匿名化提交、訪問和使用數據有效保障科學家識別并承認數據提供者，為數據貢獻者提供使用數據的額外保護，確保其固有權利(如知識產權)不會喪失。協議還要求數據使用者積極尋求與數據提供者的合作，增強數據提供者與使用者之間的信任，鞏固對各自互補貢獻的尊重[19]。

4 策略性建議

4.1 共享前——數據資源建設：確定數據權利和權利主體的劃分

科學數據的確權問題尚未達成共識，開放共享過程中數據權利主體的博弈阻礙數據開放共享?？茖W數據共享是將數據從持有者轉移到使用者的過程，核心問題是數據所有權和使用權的分離[20]。當前國際上的典型做法是依靠外部或內外混合型渠道獲取資源，由數據平臺專職行使建設權和/或管理權，而不享有使用權，表明數據持有者和建設者角色或可重疊，但從共享角度必須將數據持有權/建設權與數據使用權分離，“自產自用”的模式本質上還是對數據資源的壟斷。在數據資源建設階段應以書面形式對數據確權分權，劃分存在哪些數據權利并明確各權利主體，避免后續職責邊界不清，造成數據管理效率低下，阻礙數據流通和使用。

4.2 共享中——數據開放使用：依據數據屬性實行差異化管理

分類開放使用的模式可有目的地推動科學數據的精細化管理，依照“誰投入、誰貢獻、誰受益”的數據要素收益分配原則[1]，可將公共和企業投資產生的數據分為公共數據、企業數據、涉及個體的個人數據，3種數據屬性分別為公益性數據、產業性數據和保密性數據。具體管理方式：一是公益性數據應在不涉及保密原則時盡早面向公眾開放共享，體現其公益目的和普惠性；二是產業性數據依法由投資企業持有、使用、獲利，同時鼓勵企業在達成一定營利目的后自愿公益性共享；三是保密性數據可分級管理，不可識別的數據可經匿名化后共享，易識別的數據可采用去識別化、受控訪問或不對外等方式。

4.3 共享后——數據生態營造：制定促進數據增值的機制和措施

生物醫學科學數據的價值來源于數據共享流通和開發利用，當前科學數據平臺通過追蹤成果轉化、創建數據共享環境、支撐產品和技術研發、認可數據貢獻等手段促進科學數據共享和數據增值，營造良好的數據共享使用生態。數據價值轉化過程中存在較多機制體制問題，從政策角度有以下4個切入點：一是建立合適的數據引用機制，承認數據提供者在數據采集過程中付出的努力和貢獻，保證數據提供者權利不受侵犯；二是制定數據共享使用的激勵或補償措施，如給予數據提供者優先發表相關成果的保護機制，促進數據二次利用，形成數據和科研相互支撐的良性循環；三是明確科學的數據利益分配方式，以政府為主導，同時積極探索市場化分配，兼顧個體效益和公眾效益的平衡；四是出臺科學數據共享的賞罰制度，尤其是科學數據不良使用行為的追責體系，監督科學數據的共享行為。

5 結語

本研究基于國際上4個典型的生物醫學科學數據共享平臺案例進行研究分析，總結其在開放共享方面普遍性和差異性的經驗，并提出中國科學數據開放共享方面可供借鑒的策略性建議：確定數據權利和權利主體的劃分，剝離數據所有權和使用權；依據數據屬性和特征對科學數據進行個性化管理和利益分配；制定促進數據增值的機制和措施，規范數據引用行為，完善賞罰制度。未來生物醫學科學數據的開放共享仍應平衡處理好數據保護與數據共享使用的關系，盡可能使科學數據開放共享效益最大化，營造數據開放共享的良好生態。

利益聲明：所有作者均聲明不存在利益沖突。