?

科學大數據的發展態勢及建議

2017-01-03 21:55陳明奇黎建輝鄭曉歡房俊民楊子輝
中國教育信息化·高教職教 2016年11期
關鍵詞:大數據應用數據共享

陳明奇 黎建輝 鄭曉歡 房俊民 楊子輝

摘 要:科學大數據已成為科學發展的新型戰略資源,“數據密集型科學”科研范式正在快速興起。本文就科學大數據的發展態勢進行了深入的分析與探討,科學大數據驅動科技創新的時代已經到來,結合我國科學大數據發展現狀,針對數據共享和分析挖掘存在的突出問題與挑戰,從國家層面的發展戰略與政策、科技基礎設施建設、核心技術研發、人才培養等方面建言獻策,力求把握大數據所帶來的機遇,推動盡早建立良性的科研數據生態系統,促進科研大數據共享和開發利用。

關鍵詞:科學大數據;數據出版;數據共享;大數據應用

中圖分類號:TP393 文獻標志碼:A 文章編號:1673-8454(2016)21-0005-05

一、前言

2013年7月,習近平總書記視察中國科學院時提到大數據猶如工業社會的“石油”資源,誰掌握了數據,誰就掌握了主動權。

科研數據是人類社會在科技活動中產生的各類數據資料,是信息資源的重要內涵;長期采集和積累的科研數據已經成為支撐國家創新發展的珍貴資產和戰略資源,也是經濟社會發展決策的重要科學依據;人類的知識,無不是來源于所掌握的數據和信息的分析。進入21世紀以來,源于人類觀察、記錄、分析和認識世界的渴望,信息技術持續飛速發展并被廣泛應用,導致從宏觀到微觀、從自然到社會的觀察、計算、傳播等儀器設備和活動正在越來越快速地產生出海量且多樣的數據,形成被稱為“大數據”的數據爆炸現象??蒲袛祿募眲≡鲩L及其集成和共享將不僅對科學研究能力的提高、新的科學方法的產生、研究成果向產品和服務的轉化發揮重要的作用,而且已開始引導科學研究的深度發展,促進更多的原始性創新成果??茖W研究、政府決策、產業發展越來越依賴于科學數據及對其分析的能力。

不斷增加的科學數據引發了人們思維和行為模式的變革,也使得科研大數據驅動創新發展的模式正在發生極大的改變。因為當所能利用的數據規模增大時,人們將可以做很多在小規模數據基礎上無法完成的事情,基于對大數據的分析能更好地理解世界,解決從前難以解決的或甚至不可能解決的很多大科學問題,產生意料之外的科學發現。這種創新發展的新模式具有以下特征:(1)基于全樣本的研究模式,從局部性向整體性的轉變;(2)基于相關性的研究模式,注重映射關系;(3)基于全局性的研究模式,從階段性、個體性向全流程、群體性、公眾性的轉變;(4)基于價值持續性的研究模式,從靜態性向動態性、持續性、累積性發展。

二、科學大數據的發展態勢

大數據是國家新型戰略資源,科學大數據已成為科學發展的新型戰略資源,是驅動創新的重要因素。

1.科學大數據納入國家戰略并部署實施

為了占據科學大數據制高點,世界主要大國已把科學大數據納入到國家戰略并開始重點部署實施。2012年美國總統奧巴馬宣布啟動“大數據研究與開發計劃”,旨在改進現有人們從海量和復雜的數據中獲取知識的能力,加速美國在科學與工程領域發明的步伐,推進相關研究機構進一步進行科學發現和創新研究,增強國家安全,轉變現有的教學和學習方式。2015年美國商務部宣布啟動國家海洋與大氣管理局(NOAA)的大數據項目。NOAA每天收集的數據量超過20Tb,是美國國會圖書館所有印刷藏本數據量的兩倍有余。這些環境數據來自包括多普勒雷達系統、氣候衛星、浮標網絡和浮標站、驗潮儀、實時氣候站、船只和飛機等多種數據源。隨著數據需求度的提升,迫切需要新方法以使決策者和行業人員快速、有效地獲取到相關數據。NOAA大數據項目的合作機構將創建開放平臺,以使私有行業、學術界和個體創新者通過云訪問到前所未有的大規模數據。亞馬遜、谷歌、IBM、微軟以及開放云聯盟將共同探索方法以挖掘NOAA環境數據的巨大價值,支撐數據驅動的經濟發展[1]。

歐盟繼第七框架計劃資助的GRDI 2020項目、“地平線2020”(Horizon2020)科研和創新計劃之后,正在研究制定《數據價值鏈戰略計劃》,包括開放數據、云計算、高性能計算和科學知識開放獲取四大戰略,研究數據價值鏈戰略因素,開發新型信息化基礎設施(科學數據基礎設施),即管理數字化的、聯網的科學數據環境,促進公共資助科研實驗成果和數據的使用及再利用等內容,以實現科研數據的最大價值。英國發布《英國數據能力發展戰略規劃》[2],成立了信息經濟委員會,作為一個跨學術界、企業界和政府的合作部門,保障規劃的實施和促進數據能力戰略方針制定,充分利用數據,緊抓數據機遇,使英國成為大數據分析的世界領跑者。日本強調“提升日本競爭力,大數據應用不可或缺”,正式公布了新IT戰略《創建最尖端IT國家宣言》,全面闡述了2013~2020年期間以發展開放公共數據和大數據為核心的日本新IT國家戰略,提出要把日本建設成為一個具有“世界最高水準的廣泛運用信息產業技術的社會”。

我國“十三五”規劃(2016-2020年)中提出:“實施國家大數據戰略,推進數據資源開放共享”。大數據戰略作為國家“十三五”十四大戰略之一。2015年8月國務院發布的《促進大數據發展行動綱要》中,強調了發展科學大數據,積極推動由國家公共財政支持的公益性科研活動獲取和產生的科學數據逐步開放共享,構建科學大數據國家重大基礎設施,實現對國家重要科技數據的權威匯集、長期 保存、集成管理和全面共享。面向經濟社會發展需求,發展科學大數據應用服務中心,支持解決經濟社會發展和國家安全重大問題。

2.著力推動科學數據共享及數據開放

一些國際性組織和國家制定和發布了與數據共享或數據開放有關的政策。1959年,包括美國、英國、蘇聯、法國、日本、阿根廷、南非等在內的12個國家簽署了《南極條約》,其中明確規定了各國的南極科學考察和成果數據對條約成員國共享的政策?!边€有《生物多樣性公約》、《奧爾胡斯公約》等不同學科領域一些類似條款的國際條約。1996 年,國際人類基因組計劃的科學家和他們的資助機構共同提出了“百慕大原則”(也稱為“百慕大協議”)。根據此原則,所有參與此計劃的實驗室或中心都應把長度在1KB以上的堿基對片段在產生后的24 小時內發布出來,完成注釋后的基因測序數據也必須立即公布,這些數據都要提交到公共的基因數據庫,確保公眾出于研發目的能夠免費地獲取這些數據,從而保證社會最大限度地受益。作為地球觀測領域最大和最權威的政府間國際組織,GEO(Group on Earth Observations)制定并通過了一個建立全球地球綜合觀測系統(Global Earth Observation System of Systems,GEOSS)的十年執行計劃。2003年,在德國馬普學會發起并召開的柏林會議上制定并發布了《關于自然科學與人文科學知識的開放存取柏林宣言》,此宣言中規定開放獲取的對象包括科研論文、支持科研成果的原始數據及其元數據等。世界經濟合作與發展組織(Organization for Economic Cooperation and Development, OECD)認為政府和研究機構應該對數據、信息和知識的獲取條件予以更多的關注;2004 年OECD的成員國簽署和發布了一個宣言,提出要建立公共資金資助的研究數據的獲取機制;為了指導成員國制定、完善科學數據共享政策,OECD于2006 年頒布了《關于公共資金資助的研究數據獲取的原則與指南》。

1996年,美國行政管理和預算局發布的A-130 通告(名稱為Management of Federal Information Resources)確立了數據共享政策的總體框架。據此,聯邦政府各科研資助機構(例如NASA、NIH、NSF等)分別制定了要求資助項目開放數據的具體政策。2013 年5 月9 日,為了進一步推動數據開放并提升其水平,白宮又頒布了《開放數據政策——將信息作為資產管理》,在上述相關政策與法規的指導下,美國建立了由多個數據中心(例如:NASA為其資助產生的科學數據支持建立的“分布式、活動的數據中心群”、NIH支持建設的蛋白質數據庫、NSF資助建設的DataNet Partners等)聯合形成的國家級數據基礎設施。

歐洲國家也認識到了數據共享的重要性。2012年 3月,歐盟發布《全球科研數據基礎設施:大數據的挑戰》報告,在全球科研數據基礎設施(GRDI2020)提出“科學是一項全球性事業,而科研數據是全球的資產。因此,需要全球科研數據基礎設施來克服語言、政策和社會的障礙,并減少地理時空和國家間的壁壘,從而使發現、訪問和利用數據更加方便”。英國研究理事會(Research Councils UK,RCUK)作為為學術研究和研究生培養提供資金的公共機構,于2011 年4 月發布了其數據政策的一般原則,目前RCUK下的七個理事會均已更新或發布了遵循這些一般原則的數據管理與共享政策;2011 年12 月,英國商業、創新與技能部(Business, Innovation & Skills, BIS)還發布了《促進增長的創新和科研戰略》,該戰略中強調了開放數據的重要性,指出英國將通過開放公共部門所擁有的數據、信息和研究成果來激勵創新,使這些數據的價值最大化;同時實施“開放數據”項目,建立“數據英國”網站用于數據公開;利用和挖掘公開數據的商業潛力,為英國公共部門、學術機構等方面的創新發展提供“孵化環境”。

我國政府和科研人員也意識到數據共享的重要性??萍疾?、財政部設立平臺建設專項,將科學數據共享納入國家科技基礎條件平臺。中國科學院1982年率先啟動科學數據庫的項目并持續建設和共享服務至今,到“十二五”信息化專項明確提出“科技數據資源整合與共享工程”。為了應對大數據時代下相關挑戰,國家發展改革委員會和中國科學院聯合啟動“基礎研究大數據服務平臺應用示范”項目,探索科研數據的共享模式、突破數據分析與處理的關鍵技術、形成支持創新大數據服務平臺,并以天文和材料基因組進行示范。

3.科學數據出版成為共識和趨勢

隨著數據引用技術的發展,期刊出版政策的一個發展趨勢是除了要求有關數據的開放共享外,還強調在論文和支持論文中研究結果的數據之間建立起類似于文獻引用關系的連接。例如,英國皇家學會目前的出版政策要求支持論文中結果的數據應存到恰當的、可訪問的數據庫中(在沒有特定的機構或學科數據庫的情況下,作者應將他們的數據集存在一個通用的公共數據庫中。2008年《自然》雜志,率先出版了大數據???,2014年5月推出在線出版的開放獲取雜志“科學數據”(Scientific Data),結合傳統期刊論文內容和結構化描述模式,采用同行評審、開放獲取的新模式,發表具有科學價值的數據集描述,解決使研究數據可獲得、可引用、可發現、可解釋、可再利用和可重現的日益增長需求,實現開放數據共享和可重復研究結果的目標。 Ecological archives、Earth System Science Data、Biodiversity Data Journal等期刊的數據出版成功實踐,數據論文的廣泛引用,充分說明了國內外學術界同仁對數據論文的高度認可,科學數據出版成為科學大數據發展趨勢[2]。

結合我國科學數據開放共享的進展及制約因素,我國以數據論文(Data paper)的方式出版科學數據的實踐,明確出版流程、建立標準體系、構建出版系統、創立數據存儲庫,成功主辦了國家網絡連續型出版物的首批試點刊物《中國科學數據》(China Scientific Data,國內統一連續出版物號CN116035/N),建設數據出版平臺和科學數據存儲庫,面向未來數據出版全面發展深度思考了數據出版生態系統的建設,推動我國科學數據出版的健康發展。

三、科學大數據應用

科學大數據時代已經興起,科學大數據驅動各學科新發現的研究模式和引導案例正在探索之中。

國際重大科技基礎設施在科研活動信息化方面投入巨大,也產生了良好的效果。2016年美國激光干涉引力波觀測臺(Laser Interferometer Gravitational-Wave Observatory,簡稱LIGO)宣布直接觀測到引力波,驗證愛因斯坦百年預言,其中數據和計算系統(Data and Computing Systems,DSC)作為LIGO探測器由10個子系統之一,負責LIGO探測數據的采集、分配和計算,LIGO設計的網絡與采集控制通道超過30萬個,其中大約3000個快速通道。獲取的數據不但包括激光干涉儀引力波探測器輸出的數據,還包括了各種獨立的對引力波探測器的環境和設備狀態進行監控的探測器、記錄儀等,對諸如溫度﹑氣壓﹑風力﹑大雨﹑冰雹﹑地表震動﹑聲響﹑電場﹑磁場等環境條件進行監測的數據, LIGO公布的GW150914事件,在線觸發延遲是大約3 min,用了5個離線分析流水線,消耗的CPU時間大約是5千萬小時。為有效處理如此巨大的數據量,LIGO采用了專用計算、機動計算、分配式計算、自愿者計算四種模式來構建計算資源體系,以滿足科學家對高通量計算資源的不同需求。

美國宇航局Armstrong飛行研究中心在開展太空探索、太空作戰、科學發現和航空研究與發展中發揮著至關重要的作用。Armstrong飛行研究中心地球科學數據和信息服務部分布式存檔中心(GES DISC DAAC,Goddard Earth Sciences Data and Information Services Center Distributed Active Achieved Data Center)通過提供數據以及相關服務來使用戶能夠全面了解全球氣候資料的科學性、教育性及應用潛力,負責高層大氣、大氣動力學、全球降水、全球生物圈、海洋生物圈、海洋動力、太陽輻射等方面的數據接收、處理、存檔、共享和服務。

在高能物理領域,大數據幫助科研人員在高能物理試驗中發現新的粒子或驗證新的模型,大亞灣中微子實驗項目研究人員對實驗第一階段產生的15TB海量數據進行刻度、修正和數據分析,發現了一種新的中微子振蕩模式,并精確測量到其振蕩幾率,被《科學》雜志評選為2012年度十大科學突破。

在核能及核技術應用領域,科學大數據在先進核能系統設計和現有核電站運維中提供全生命周期的數據支持。如中科院核能安全技術研究所圍繞先進核能系統設計建成了世界首個綜合性核能領域數據庫[3],提供核設計、材料性能預測、可靠性分析等數據資源及二十余種在線分析與定制服務,結合其自主研發的超級蒙特卡羅核計算仿真軟件系統SuperMC[4]和可靠性/概率安全評價系統RiskA,在國際熱核聚變實驗堆ITER和中國鉛基反應堆CLEAR物理和工程設計中發揮重要作用。美國能源部支持的CASL計劃中,為對現有二代壓水堆核電站進行延壽和提升功率,基于全堆芯模擬數據和30多年的電站運維數據,利用超級計算機Titan對反應堆性能進行預測分析,近70%的機組現已通過美國核管會的審批。中核集團利用核電站海量運維數據,建立了核電站運維部件可靠性預測大數據平臺;中廣核集團與清華大學簽訂了《核電大數據治理體系框架》,旨在推動核電全生命周期數據的模型化、標準化和智能化。

在全球變化領域,其數據類型多種多樣,時間序列超長,并且是地球科學、環境科學、生命科學、社會科學和計算科學等多學科交叉的研究,預計到2020年,基于地球系統數值模式的全球變化預測資料的數據量將達到50PB,遙感衛星數據也將達到50PB,其他類型數據將達到2PB,到2030年將分別上升為185PB、150PB和5PB;這些海量跨領域的數據為理解氣候系統行為和發展、評價地球系統模式、探尋極端天氣事件成因以及理解氣候長期變化趨勢原因提供了基礎,也會激發全球氣候變化中許多新發現和對機理的新認識。

在地球科學領域,數字地球作為利用海量、多分辨率、多時相、多類型對地觀測數據和社會經濟數據及其分析算法和模型構建的虛擬地球,正在其詮釋、理解、預測全球變化的趨勢、驅動力、過程及其相互作用,為全球可持續發展提供知識支撐,在此過程中涉及的數據規模已達EB級,類型包含圖像、視頻、文檔、地理位置信息以及對地觀測、科學模型、社會、經濟等。

在生命科學領域,隨著千人基因組計劃、癌癥基因組圖譜研究等項目的不斷實施以及新一代測序技術的成熟發展,產生了海量的“高維災難性數據”,科研人員等可利用海量的生物數據發現生命運行的機制,比如說癌癥基因組圖譜對所有100種癌癥的基因組測序,并匯出腫瘤基因圖譜,以逐一解開所有癌癥的基因密碼,提供個性化治療方案,因此可說生命科學研究逐步轉向數據驅動的科學發現模式。

2015年11月,由美國約翰·霍普金斯大學領導的多學科研究團隊利用大數據進行慢性病的個性化管理研究,并且取得突破性成果。研究人員通過設計統計規則系統來實現計算機分析大量病案以及識別有相似病情的患者群體。此外,通過學習能夠預測疾病好轉或惡化特定模式的病癥和治療方案,該研究成果能夠幫助醫生選取正確的個性化診療方案、更迅速準確地診斷、治療如紅斑性狼瘡、類風濕性關節炎等慢性疾病。

研究人員通過設計統計規則系統來實現計算機分析大量病案以及識別有相似病情的患者群體。此外,通過學習能夠預測疾病好轉或惡化特定模式的病癥和治療方案,該系統能夠幫助醫生選取正確的個性化診療方案。然后,醫生根據計算機提供的具有相似癥狀的其他患者的信息,可以將類似治療過程應用于新患者。

德國卡爾斯魯厄理工學院(KIT)的研究人員通過對大量的鳥類基因數據分析,設計出了鳥類進化綜合分析的算法,繪制出迄今為止最可靠、全面的鳥類“生命之樹”。研究發現,在恐龍滅絕后的1500萬年出現了鳥類進化大爆炸式發展,形成了今天的物種多樣性。

在天文學領域,英國研究機構啟動星系動物園Galaxy Zoo研究平臺,使得天文分類學科學研究正從小型、獨立的學術行會形態轉移到大規模、更加開明和互聯的科學家與天文愛好者群體中,該計劃吸引了來自世界各地超過10萬的天文愛好者,為上百萬個星系在線上進行分類,使星系分類工作達到了前所未有的速度。

四、科學大數據發展的挑戰及思考

盡管我國已經擁有豐富的科學數據資源,但是在這種創新驅動的新模式下,數據共享和分析挖掘的問題與挑戰仍然十分突出。首先,在從數據中創造價值工作的各階段都造成阻礙,關鍵的技術挑戰包括如何更好、更高效地傳輸、存儲、長期保存、組織、發現和訪問、集成、融合、分析、挖掘和可視化這些數據。其次,為了探索利用海量異構數據資源,數據基礎設施必須是易使用、開放及可擴展的,必須支持科學數據的整個生命周期,支持數據的整合和跨學科轉移,支持數據驅動的創新發展新模式。第三,在保障隱私及國家安全的前提下最大限度地促進數據的流動性和可獲取性的數據開放政策至關重要。最后,需要解決掌握科研大數據開發利用技術和數據驅動的創新發展模式和方法人才不足的挑戰。

一個國家的科學研究和創新發展在國際上的地位將取決于其在科研數據的優勢上及將數據轉換為信息和知識的能力。為了加快我國科技創新的步伐,建議我國政府也從國家戰略的高度對此加以重視,推動建立起良性的科研數據生態系統,促進科研數據共享和開發利用:

(1)制定國家科學大數據發展戰略。統籌規劃,從國家層面推進科學大數據中長期規劃和政策的實施,進行學科布局的頂層設計。成立科學大數據國家專家委員會和科學大數據工作組。

(2)研究和制定配套的科技立法和政策。制定科技資源分類、分級的立法體系、政策和條例,政策通過推動科研資助模式、科研成果發表和評審機制、科研人員和科研機構激勵機制等的變革,促進科學數據的共享和重用,促使開放科學和開放數據的原則被廣泛接受。

(3)建設和發展新型國家級科學大數據設施。新型國家級科學數據基礎設施由若干可互操作的國家級科學數據中心、數據檔案館、數字圖書館等組成,應能支持科研數據的整個生命周期,支持大數據科學研究和多學科研究,支持數據的跨學科轉移和開放鏈接的數據空間,以及支持科學數據與文獻的互操作;促進科研創新成果不斷向企業轉移轉化,帶動國家和地方產業發展,形成科學大數據設施的運行和可持續發展機制。

(4)發展大數據存儲、傳輸、管理、分析和共享所需要的核心技術。需要重點投資的技術方向包括大數據存儲技術、大規模數據傳輸技術、數據集成技術、工作流技術、非結構化和半結構化數據處理技術、大數據挖掘技術、大規模數據可視化技術、數據長期保存技術等等。

(5)積極培養新的專業人才及支持數據科學的發展。培養包括數據科學家、數據分析師與數據工程師、數據管理員、數據檔案員等在內的專業人才,他們對于科學數據的成功管理和利用起著關鍵作用。支持建立數據科學研究機構、開設數據科學相關專業和課程,以促進數據科學基礎理論的發展及數據技術的研發。

(6)引導相關學科對新的科研方法進行探索與利用。通過應用示范的方式,引導相關學科科研人員對大數據科學研究新方法和新模式進行探索和利用,加快相關學科領域科研模式轉變。同時應加強對新類型研究團體如何組建和運轉的探索。

參考文獻:

[1]譚鐵牛,曹凝,陳明奇等.中國科研信息化藍皮書2015[M].北京:科學出版社,2016.

[2]中國科學院條件保障與財務局,中國科學院成都文獻中心.信息化研究與應用動態[DB/OL]. http://www.cnic.cn/qkbg/xxhgzdt/.

[3]吳宜燦,胡麗琴,龍鵬程等.中國科研信息化藍皮書2015(核能信息化與虛擬核電站應用實踐)[M].北京:科學出版社,2016:169-178.

[4]Y. Wu,Song J, Zheng H, et al. CAD-based Monte Carlo program for integrated simulation of nuclear system SuperMC [J]. Annals of Nuclear Energy, 2015(82):161-168.

(編輯:王曉明)

猜你喜歡
大數據應用數據共享
大數據在科技新聞傳播領域的應用研究
淺析電信行業大數據應用的路徑
大數據與圖書館管理創新
網絡時代電子文件和檔案管理的探索
企業管理會計應用大數據分析實例研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合