?

低溫熱年代學數據庫建設現狀與前景展望

2024-01-20 09:16戴夢瑤李安波劉品欽戴緊根張會平劉少峰
地震地質 2023年6期
關鍵詞:年代學徑跡低溫

戴夢瑤 王 平 李安波 丁 璐 劉品欽 戴緊根 張會平 劉少峰

1)南京師范大學,地理科學學院,南京 210023 2)江蘇省地理信息資源開發與利用協同創新中心,南京 210023 3)中國地質大學(北京),地球科學與資源學院,北京 100083 4)中國地質大學(北京),地質過程與礦產資源國家重點實驗室,北京 100083 5)中國地震局地質研究所,地震動力學國家重點實驗室,北京 100029

0 引言

低溫熱年代學利用礦物中放射性元素的衰變或裂變產物標定巖石的冷卻年齡,特別適合限定年輕地質體的構造活動時間(陳文寄等,1999)。由于其可對中、上地殼近地表礦物巖石溫度隨時間的演變過程提供較好約束,可用于計算山體的剝蝕或隆升速率,并反演隆升-埋藏的熱歷史,是開展造山帶和盆地構造地貌演化、河流下切歷史等新構造和地表侵蝕過程研究的重要手段(丁汝鑫等,2007; 王修喜,2017; 李廣偉,2021)。低溫熱年代學技術依據放射性元素238U、232Th 通過α衰變最終形成Pb同位素的衰變過程。該過程會在礦物內部產生損傷并留下徑跡,即裂變徑跡,同時釋放出α粒子,即4He核(周祖翼,2014; 田朋飛等,2020)。因此,選擇U、Th含量較高的礦物(如磷灰石、鋯石等)進行裂變徑跡的統計或(U-Th)/He方法的測試,是獲取低溫熱年代學數據的主要途徑。

近年來,隨著低溫熱年代學測試技術的普及,數據量不斷增加,催生了很多基于大數據的構造地貌演化研究,在國際上產生了一系列有影響力的創新成果。Herman等(2013)通過搜集超過500篇文獻中的約18000個低溫熱年代學數據,建立了全球造山帶的數據集,從中發現晚新生代剝蝕加劇,認為全球氣候變冷是晚新生代造山帶剝蝕加劇的重要原因。而Schildgen等(2018)則認為晚新生代的剝蝕加劇不具普遍性,且其成因在不同地區也存在差異,氣候和構造都可能是剝蝕加劇的成因。近期,Jepson等(2021)對青藏高原及周邊區域的2511個低溫熱年代學數據進行了分析,通過對比氣候指標和模擬結果,認為氣候仍然是控制晚新生代青藏高原剝蝕的關鍵因素。除此以外,在大尺度板塊構造和古地理恢復工作中,熱年代學數據也成為恢復古地貌的有效途徑。例如,Poblete等(2021)基于低溫熱年代學數據集,對新生代(距今60Ma)以來的古地貌進行了重建,填補了古地理重建過程中古地貌信息的空白。

當前的低溫熱年代學數據量已經非??捎^,但大都分散于不同來源的文獻中,格式、內容均不統一,數據質量參差不齊,在一定程度上限制了大數據的創新研究。因此,建立統一、完善的低溫熱年代學數據庫勢在必行。美國等發達國家的地質年代學數據庫建設起步較早。例如,美國在20世紀70年代最早建立了NGDB地質年代數據庫(Zartmanetal.,1995),并隨后建設了Geochron數據庫(Walker,2016)。加拿大的DataView數據庫(Eglington,2004; 李秋立等,2020)、新西蘭的Petlab數據庫(Strongetal.,2016)等也都包含了低溫熱年代學數據。中國地質年代學研究雖然起步較晚,但近年來的數據增量很大,對數據庫的需求亦與日俱增。中國地質科學院最早對全國的同位素年代學數據進行了匯編,采用Microsoft Access 97數據庫軟件與ESRI ArcInfo地理信息系統建立了中國首個同位素地質年代學數據庫,并包含了裂變徑跡熱年代學數據(蔡俊軍等,2002)。在之后的研究中,中國也建立了多個地區或專題的年代學數據庫(方先君等,2018; Heetal.,2018)。最近,中國科學院地質與地球物理研究所開發了地質年代學數據共享平臺(1)http:∥onelab.ac.cn/。(OneLab),將實驗儀器與數據管理、科研數據管理與開發、科研數據出版與共享融為一體,旨在推動數據和儀器的開放共享。

現有地質年代學數據庫的設計思路往往適合絕對年齡數據,但是低溫熱年代學有別于常規的地質年代學方法,其年代值只記錄冷卻時間,更具有地質意義的冷卻歷史則來自基于高程剖面、徑跡長度等信息的數值模擬(周祖翼,2014)和(U-Th)/He體系的擴散動力學模型。另外,實驗技術的革新也對熱年代學數據庫的建設提出了新的要求。以裂變徑跡數據為例,傳統的“在線”統計方法只產生3個方面的數據,即樣品元數據、單顆粒的年代數據、單顆粒的徑跡長度數據,且數據量較小(KB—MB級)。新的統計技術可先在線采集動態圖像,然后在任何一臺計算機上進行“離線”統計,數據量提升了數千倍。例如,FastTracks系統(Gleadowetal.,2019)中每個樣品會產生10~20GB的數據量。如何更好地保存和利用這些數據,也是數據庫建設中面對的主要問題。近期,澳大利亞的地球科學組織AuScope Geochemistry Network(AGN)發布了新的AusGeochem數據庫(Booneetal.,2022),其中包含了由墨爾本大學設計的新一代低溫熱年代學數據庫。美國也在EarthCube計劃的支持下針對熱年代學數據開發了新一代Sparrow數據庫應用,代表了實驗室與數據庫融合的最新趨勢。本文系統綜述了當前國內外代表性的低溫熱年代學數據庫的建設現狀,著重對比了傳統數據庫與新一代數據庫的差異,并對下一步數據庫的建設進行了展望,以此為新構造和地貌演化的大數據研究提供基礎保障。

1 傳統地質年代學(熱年代學)數據庫現狀

在過去的幾十年里,基于公開發表的數據,不同的國家或組織都相繼建立了包含低溫熱年代學數據的地質年代學數據庫,除了上述提及的NGDB數據庫、Geochron數據庫、DataView數據庫、Petlab數據庫外,還有加拿大的Geochronology Knowledgebase數據庫(Villeneuveetal.,2005)和哥倫比亞的地質年代學數據庫(Rodriguez-Corchoetal.,2021)等。另外,也有些以數據集的形式分散在學者的文章中,或由公司收集并提供有償數據咨詢服務(Markwick,2019)。下文就以幾個常見的公開數據庫為例,介紹其在低溫熱年代學方面的數據組織形式、模型特點和應用現狀。

1.1 美國國家地質年代數據庫NGDB

美國國家地質年代數據庫NGDB(2)https:∥apps.usgs.gov/geochron_database_explorer/。(National Geochronological Data Base)于1974年由美國地質調查局建立,是最早的放射性同位素年代學數據庫(Zartmanetal.,1995),主要存儲美國地質年代學數據,其中包含1397條熱年代學數據。NGDB以Location(地理位置)作為主表,使用RecNo(樣品標識符)作為主鍵,與從表采用“一對多”對應關系構成關系型數據庫(圖1)。數據入庫采用手工方式,在入庫前需要進行字段格式統一和地理位置校正。數據庫包含了樣品的地理位置、巖石描述、分析數據、年齡和參考文獻(Sloanetal.,2003)。自2003年以來,NGDB數據和字段的更新都處于停滯狀態,直到2019年6月由Peter Schweitzer負責再次啟動數據庫更新計劃(李秋立等,2020)。新數據庫平臺已于2023年重新上線,定位為地質年代學和熱年代學數據庫,其中熱年代學數據量增加到1764條數據,但基本來自美國。數據采用幾何框選和關鍵字2種檢索方式,檢索結果支持JSON、CSV和GeoJOSN格式的下載。

圖1 地質年代學方法的溫度范圍及美國國家地質年代數據庫(NGDB)針對不同方法設定的數據字段(改自Sloan et al.,2003)

1.2 Geochron地質年代學數據庫

Geochron(3)http:∥www.geochron.org/。是美國2007年發布的地質年代學數據庫,早期以U-Pb同位素地質年代數據為主,自2017年起增加了對低溫熱年代學數據的支持(McLean,2017)。目前,數據庫維護由美國堪薩斯大學的Noah McLean團隊負責。在數據錄入方面,Geochron提供了完整的模板,由用戶手工錄入與樣品相關的各種信息,如采樣位置、巖性、實驗室等,還包括單顆粒年齡、徑跡長度等; 在數據查詢方面,支持多要素條件聯合查詢和模糊查詢,可選條件包括位置、年齡區間、巖性、實驗室及IGSN樣品編碼等,同時也支持地圖框選查詢; 在數據導出方面,提供HTML、XLS和XML 3種文件格式的數據瀏覽和下載。雖然Geochron數據庫設計得比較完善,但由于需要手工錄入數據才能實現數據增長,其數據量很大程度上取決于數據擁有者的個人意愿,且沒有得到實驗室的廣泛支持。因此,截至2021年,該數據庫僅匯總了全球778個樣品數據,其中包括438組(U-Th)/He數據、340組裂變徑跡數據,該數據量可能還達不到全球已發表數據量的5%。此外,Geochron的低溫年代學數據入庫模板設計復雜,錄入過程繁瑣,降低了學者的錄入意愿,且數據無法以結構化的二維表格形式展示,部分數據項缺失較為嚴重。

1.3 新西蘭地質樣品數據庫Petlab

Petlab(4)https:∥pet.gns.cri.nz。是由新西蘭的GNS Science(Geological and Nuclear Science)公司建設并維護的巖石、礦物和地質分析數據庫,于2004年上線。其采用Oracle數據庫軟件的關系型架構,將面向用戶的管理和授權行為、面向業務的數據操作規則和面向對象的實體屬性關系都交由數據庫中的業務邏輯層軟件進行管理。對每個樣品提供16個必填字段,包括樣品編號、采樣者、日期、地理坐標和巖石描述等基本信息,以及若干可選的描述性字段(如巖石學、礦物學描述等)。數據的收錄包括2個渠道:對于GNS公司的自有數據,通常會在得到分析結果后的幾周內錄入; 對于來自學術期刊的公開發表數據(被稱為legacy數據),則需要花費大量時間完成,更新的周期通常在一年以上。在數據查詢方面,分為一般查詢和結構化查詢語言(SQL)高級查詢。一般查詢支持表單檢索和采用Web地圖空間檢索2種形式; 使用SQL可構建更為復雜的查詢條件。在數據導出方面,返回數據記錄可以Excel或CSV格式下載,或以樣本位置點的形式在專業GIS軟件(如ArcGIS)或Google Earth中查看。Petlab維護和更新的活躍度較高,截至2021年,數據庫共包含新西蘭和南極地區的212139條數據,其中包括18條(U-Th)/He數據、1048條裂變徑跡數據。然而,Petlab僅針對貢獻數據的幾個機構(如奧克蘭大學等)開放,對于非合作機構的個人用戶,注冊審核及字段查詢的權限管控則非常嚴格。

1.4 加拿大同位素地質年代學數據庫DataView

DataView(5)http:∥thera2.usask.ca:8085/。是由加拿大薩斯喀徹溫大學Bruce Eglington教授負責的國際地質年代學和同位素數據庫。該數據庫于2000年通過Paradox關系型數據庫軟件配置,以Windows桌面軟件的形式發布(Eglington,2004),后于2007年轉變為由開源關系數據庫管理系統Firebird構建的網頁數據庫,目前仍在開發中(6)https:∥sil.usask.ca/databases.php。。DataView的查詢功能設計得非常細致,可自定義查詢的字段,進行精準定位,還可以自定義查詢結果的展示字段,并提供EXCEL、CSV、HTML、PDF文件格式供用戶下載。DataView在數據查詢功能上定義了非常豐富的可選字段,方便用戶在不熟悉字段格式的情況下進行模糊查詢。此外,在錄入數據時,數據庫還提供了數據質量評價,并開發了多種繪圖功能以便對查詢結果進行直觀的對比和分析。截至2020年12月,該數據庫公開發布超過152000組數據,其中有255條(U-Th)/He數據、2248條裂變徑跡數據。遺憾的是,相比其他的年代學數據,該數據庫內的低溫熱年代學數據量非常有限,且缺乏實驗室、巖性、分析方法等相關字段信息,更新也十分緩慢。

2 新一代低溫熱年代學數據庫

2.1 澳大利亞AusGeochem數據庫

AusGeochem(7)https:∥ausgeochem.auscope.org.au。是由澳大利亞國家合作研究基礎設施戰略(NCRIS)的AuScope項目資助的地球科學數據開放存儲云平臺,旨在完善年代學和同位素數據的存儲,于2021年正式上線。AusGeochem的低溫熱年代學數據庫由墨爾本大學熱年代學實驗室負責建設(Booneetal.,2021)。該實驗室歷史悠久,一直以來都是低溫熱年代學技術和方法的引領者,為Autoscan公司(全球最大的裂變徑跡設備制造商)開發了裂變徑跡分析軟件,并將裂變徑跡的操作流程標準化。實驗室利用自身擁有的約2萬件樣品(Gleadowetal.,2009,2019),并對全澳洲的實驗室數據進行了整合,采用PostgreSQL數據庫軟件、React組件庫、Java Spring Boot框架構建了面向對象的低溫熱年代學數據庫。

AusGeochem借助Filemaker Pro數據庫建模軟件將熱年代學數據劃分為樣品信息、分析信息和數據模擬信息3個信息模塊,以樣品信息為核心,鏈接到特定的實驗方法,在裂變徑跡定年方法中充分考慮了單顆粒數據的展示(圖2)。數據信息更加全面(包括單顆粒的裂變徑跡、(U-Th)/He數據),每件樣品都可以采用IGSN(International Geo Sample Number)進行注冊,確保樣品號的唯一性,并使用DataCite提供標準的引用方式(Lehnertetal.,2006)。

圖2 墨爾本大學低溫熱年代學(裂變徑跡)數據庫模型

AusGeochem設計了完善的數據質量評估體系,不僅成立了專家咨詢小組研討、制定數據報道格式,還在數據的錄入過程中容納了錯誤報告。字段的類型和格式參考了IGSN樣品元數據、Mindat數據庫的巖性和礦物的分類方案等進行了標準化設計。在數據查詢和使用方面,設計了全新的Web應用界面,除了具備常規數據庫的增加、刪除、修改、查詢等功能,還增加了數據邏輯關系的快速構建,以及年齡計算、統計分析、數據可視化等功能。用戶可對數據進行二次分析和處理,如生成直方圖、年齡-高程圖,也可結合不同數據類型進行綜合分析和解釋,例如在古地磁學數據框架下理解低溫熱年代學數據。AusGeochem與澳大利亞多家實驗室開展合作,構建實驗數據的安全保障,可為數據發布與傳播設定密級,并在錄入數據的同時提供權限選項。對于未發表的實驗室數據可選擇保密、與合作者有限共享或全部共享。

2.2 Sparrow數據庫應用

Sparrow(8)https:∥sparrow-data.org/。是2022年在美國國家自然基金委員會EarthCube項目支持下開發的數據庫應用,遵從FAIR(Findable,Accessible,Interoperable,Reusable)原則(Wilkinsonetal.,2016),致力于地球科學的數據管理、學科間的數據共享并發掘其中的未知規律。不同于上述的數據庫,Sparrow并不是一個現成的“庫”,而是面向實驗室端和用戶端建立的通用的模塊化數據庫應用。實驗室端通過Sparrow將樣品的地質背景和分析信息等原始數據標準化并歸類,挖掘數據格式的規則以實現數據全自動入庫,再傳輸到相應的數據庫中。用戶端利用Sparrow收集、解釋數據,將數據應用或發表(圖3)。Sparrow內嵌了開源的空間數據庫PostgreSQL來存儲并管理數據,采用TypeScript腳本語言和React框架構建Web用戶界面。不僅部署了實驗室管理員、訪客等不同級別用戶的訪問、查詢權限,還實現了通過API鏈接到第三方數據庫(如Geochron)的功能。Sparrow提供了較完整的數據庫實現工具,包括數據管理、分析、可視化各個層面的功能和框架,采用Docker進行安裝配置,幾乎支持所有操作系統。

Sparrow的核心模塊包括數據導入、數據權限管理及年代學數據庫相關的分析擴展。數據導入面向CSV和指定JOSN格式的元數據,在實際應用中會基于用戶更改的數據規則和導入流程進行數據自動獲取、清洗和錯誤捕獲。在數據權限管理方面,綜合考慮數據的時效性和層次性(如字段、文檔等),保護數據提供方的優先使用權限,允許其對任一字段設置密級。此外,Sparrow兼容開源的專業軟件,可實現更高級的查詢、分析功能,如添加Mapbox樣式用于樣品分布的可視化、將數據導入到QGIS中進行空間分析操作及利用Python相關程序進行繪圖等。

Sparrow真正打通了從實驗室到數據庫的中間環節,直接在數據入庫和分析的過程中實施FAIR數據管理原則。不同的年代學實驗室都可以通過Sparrow對數據進行標準化,將實驗室數據映射到需要的數據報道格式,進而方便第三方數據庫(如EarthCube)匯集來自不同實驗室的數據。平臺也內置了元數據管理工具,使實驗室的標準化管理和實驗室之間的數據共享更為便捷。目前,已經有十多所實驗室參與到Sparrow的測試中,包括科羅拉多大學的(U-Th)/He 熱年代學實驗室和威斯康星大學麥迪遜分校的Ar-Ar實驗室等。

3 數據庫特征對比與存在的問題

3.1 傳統數據庫與新一代數據庫的特征對比

傳統低溫熱年代學數據庫(如前文介紹的4個數據庫)具有以下優點:1)數據來源于可靠性強的公開發表論文,側重呈現以樣品為單元的年齡信息; 2)根據樣品與分析方法的一對多關系,將數據庫的邏輯結構設計為“關系型”,并通過關系型數據庫軟件和結構化查詢語言(SQL)集中管理和更新數據、設定用戶權限和數據密級; 3)數據的錄入和編輯采用已被廣泛應用的Excel電子表格實現,能夠自動與業務邏輯層連接,在數據庫管理系統中下載、上傳和編輯數據。此外,這些數據庫都基于在線地圖開發了地圖查詢功能,增強了可視化效果,提升了數據庫的數據發現能力。

然而,傳統數據庫的缺點也非常明顯。1)首先,也是最為突出的問題,即低溫熱年代學數據在傳統的地質年代學數據庫中往往只被作為一個子集,為了確保與其他年代學數據報道格式的統一,在數據錄入、存儲時不得不對字段進行取舍,放大了共性,但忽略了特性,特別是對于一些特有的數據類型(如單顆粒數據)而言,存在嚴重的缺失,以至于影響數據質量評估。2)其次,低溫熱年代學數據在傳統地質年代學數據庫中占比很低,整體數據量偏少,覆蓋的區域非常有限,更新也十分緩慢。這與近年來低溫熱年代學數據的快速增長不匹配,也很難滿足大地構造學、地貌學等領域對大數據分析的應用需求。3)此外,與高溫同位素年代學體系相比,低溫熱年代學的優勢在于可根據樣品的單顆粒數據(如裂變徑跡)反演樣品的熱歷史,以揭示巖石的剝蝕冷卻或構造抬升過程。但在傳統數據庫的設計思路上往往只存儲年齡數據,并沒有考慮低溫熱年代數據的解釋或反演結果,需要專門的數據結構存儲熱歷史數據。

表1 傳統和新一代低溫熱年代學數據庫的特性對比

3.2 新一代數據庫建設面臨的主要問題

然而,新一代低溫熱年代學數據庫的建設尚處于初步探索階段,如何保證數據的持續增長,仍然是擺在數據庫建設者面前的難題。與實驗室建立數據關聯雖然能夠在一定程度上推動數據的增長,但難以確保讓全部或多數實驗室接受統一的數據入庫規則。ET_Redux(9)http:∥cirdles.org/projects/et_redux/。即為一個典型的例子,它是由美國EARTHTIME項目支持開發的開源的年代學數據處理軟件,旨在為U-Pb年代學建立統一的年代數據處理規范、校正標準,以提高數據精度,并推動不同實驗室之間實現便捷的數據共享(Bowringetal.,2011)。ET_Redux采用關聯賬號的形式與Geochron數據庫進行互訪,支持將實驗室數據以標準的格式快速上傳到數據庫,現已為包括亞利桑那大學年代中心在內的十多個實驗室提供了專門的數據接口。不盡人意的是,雖然已經推廣了十多年,但真正能夠通過ET_Redux匯總到Geochron數據庫中的U-Pb年代學數據并不多,且實驗室很可能根據自身的發展需求調整數據處理方法和工作目標,從而不能完全接受ET_Redux的運作方式。

其次,數據或樣品的編號標準也是數據庫建設面臨的問題。雖然通過IGSN提供的注冊服務能夠獲得樣品的唯一編號,但這僅針對實驗室所擁有的實體樣品,而對于已經公開發表的大量低溫熱年代數據而言,幾乎不可能讓每件樣品都擁有標準編號。此外,一些沒有與IGSN建立合作關系的組織或機構短時間內也無法授權并獲得IGSN的編號。因此,建立靈活的編號體系,對樣品和數據建立可持續、可擴充的唯一標識,也是新一代數據庫的重要任務。

第三,低溫熱年代學所具有的特殊數據結構特征,是新一代數據庫設計者面臨的一項挑戰?,F有的年代學數據庫普遍采用關系型數據庫邏輯結構(二維表),表與表之間可通過字段進行關聯,這樣做的好處是便于使用SQL查詢,缺點是靈活性大大降低,數據錄入必須符合字段規范,擴充性和兼容性較差。以裂變徑跡為例,最新的實驗室數據類型中除了文本、表格,還包含大量動態圖片(Gleadowetal.,2019),數據量也較從前增加了上千倍,傳統的數據結構根本無法完成此類數據的存儲。在實驗方法上,過去普遍采用白云母外探測器統計法(EDS)測量誘發徑跡密度來計算238U 含量,最近則開始采用激光剝蝕等離子體質譜法(LA-ICP-MS)直接計算238U 含量,2種方法的數據報道格式差別較大,無法建成統一的入庫表格(字段)。此外,(U-Th)/He方法普遍存在同一個樣品單顆粒年齡分散的問題,因此需要探索更為靈活的入庫方案。除原始數據以外,已經發表的裂變徑跡文獻中還包括大量熱歷史信息,它們是由作者解釋或反演的結果,屬于解釋性數據,但對于恢復冷卻歷史或構造隆升卻十分重要,如何將此類數據入庫也是數據庫設計時必須考慮的問題。

4 低溫熱年代學數據庫建設展望

通過對比傳統和新一代低溫熱年代學數據庫的特征,并對現有數據庫存在的問題進行分析,不難看出,建設完整、自主、靈活的新一代低溫熱年學數據庫勢在必行,其重要意義表現在3個方面:1)科研管理的需要。通過數據庫集中管理已發表或即將發表的數據,可有效避免重復的科學研究,提高科研經費的使用效率。2)實驗室分析的需要。通過實驗室數據接口,可及時地發布數據,并方便不同實驗室間的數據對比,規范數據表達。3)大數據創新研究的需要。通過匯集海量數據,探索發現未知的規律,揭示構造隆升、剝蝕等深時地質過程。為此,下文將針對現有數據庫面臨的問題,結合計算機技術等領域的最新進展,對低溫熱年代學數據庫的建設提出展望。

4.1 可持續的數據增長

如前文所述,在低溫熱年代數據庫的建設中,最關鍵的環節是如何實現數據快速、實時的增長。已有研究或應用表明,利用人工智能建立自動化入庫機制,通過開放共享的文獻獲取途徑快速更新數據及借助社交網絡促進數據傳播,都是促進數據快速增長的重要手段。

4.1.1 人工智能(AI)實現數據自動化入庫

現有的數據庫都采用人工錄入的方式進行數據入庫,有的是由數據作者本人錄入和維護,有的數據庫維護方配備專門的數據編輯團隊,即使最新的AusGeochem數據庫也不例外。最近,計算機科學家開始嘗試利用人工智能(AI)技術從文獻中自動提取信息,如自然語言處理或其他形式的機器學習算法。美國艾倫人工智能研究所(Allen Institute for Artificial Intelligence)于2015年推出了基于深度學習的Semantic Scholar學術搜索引擎,不再僅限于為用戶提供普遍的關鍵字檢索功能,而是在深度學習技術中內嵌信息篩選,對檢索結果二次分析,突出有用信息。利用機器閱讀技術從文本中挑選出最重要的關鍵詞和短語,判斷文章的主題,并從論文中提取圖表,將其呈現在檢索結果中,幫助用戶快速理解文獻內容,避免遺漏有用信息,同時也不會產生冗余。Semantic Scholar還為研究者提供應用程序接口(API)和開放研究的語料庫(謝智敏等,2017)。

式中:Q為風機所需風量(m3/h);K為風管和除塵器的漏風系數,取 1.15;Q1為系統風量(m3/h).

在針對地學文獻的具體研究中,美國威斯康星大學開發了基于人工智能的數據挖掘系統——GeoDeepDive,用于地學特定術語、主題或位置等相關文本信息的挖掘和解析。GeoDeepDive將海量文獻存儲于后端文獻庫中,即全集庫(圖4a)。用戶可利用關鍵字從全集庫中獲取專題子集,然后在子集中分離出少量符合需求的測試數據集,接著將測試數據集與其余的子集進行匹配分析、完善匹配規則、找出結果,如此反復即可得到準確性較高的結果數據集(Marsiceketal.,2018)。近期,基于人工智能技術,上海交通大學也開發了在線的文獻信息挖掘系統DeepShovel,用于支持深時數字地球(Deep-time Digital Earth,DDE)數據庫的建設(Zhangetal.,2023)。DeepShovel以用戶為中心,提供直觀的界面協助用戶進行文獻管理、團隊管理、信息挖掘和整理。為方便學科專家使用信息挖掘功能,DeepShovel自建了一個大型的PDF文獻庫進行解析和訓練,挖掘出的數據被存儲在后端數據庫(圖4b)。用戶通過網頁界面訪問,可實現更為深入的信息挖掘,包括提取經過訓練的含有關鍵語句、圖、表、地圖元素等信息。用戶只需在界面上點擊框選,系統就會反饋給后端,后端將實時處理結果傳遞到結果界面供用戶核驗,實現了交互式信息提取。

圖4 GeoDeepDive(a)和DeepShovel(b)的工作流程示意圖(據GeoDeepDive(10)http:∥eos.org/science-updates/a-new-tool-for-deep-down-data-mining/。和Zhang等(2023)修改)

4.1.2 開放共享的數據獲取和更新模式

最近十余年,以預印本為代表的開放學術已逐漸成為一種新的數據傳播形式。根據2002年布達佩斯會議提出的開放存取的行為定義和范圍解釋,在論文發表前首先公開預印本,可規避首發權爭議,從而掌握科研交流的主動權(Christian,2008)。自1991年美國推出第1個預印本平臺arXiv到2016年中國預印本服務器ChinaXiv啟動,開放的預印本平臺受到了越來越多學者的青睞,大量地球科學論文也選擇在預印本平臺首先發布。預印本大大縮短了從研究、實驗到發表的周期,也便于數據庫吸納最新的研究數據,有望替代已發表的文獻成為低溫熱年代學數據庫重要的數據獲取來源。

開放共享的學術生態也催生了開放共享的數據倉儲平臺,如Pangaea、Zenodo等。Pangaea(11)https:∥www.pangaea.de/。是開放存儲的環境科學信息系統,數據來源于研究項目、機構和個人用戶。如圖5所示,Pangaea對上傳的數據設定了比較嚴格的分析和檢查流程,并對數據進行標準化,由數據審稿人作出審核、評價,最后對數據進行唯一編碼(Diepenbroeketal.,2002)。開放的數據共享模式使得Pangaea擁有龐大的數據量和用戶群,由此維持數據增長的良性循環。與Pangaea采用的模式不同,Zenodo(12)https:∥www.zenodo.org/。對數據的形式不設限制。Zenodo接受上傳者授權的一切數據,將數據的質量交由上傳者把控,且所有上傳的數據都可以獲得良好保護,因此近年來的數據增長非???是未來熱年代學數據庫重要的數據來源。

圖5 Pangaea系統數據提取和入庫工作流程

另外,在國際地質科學聯盟(IUGS)的倡議下,中國科學家和13個國際組織、機構于2019年共同發起了深時數字地球(Deep-time Digital Earth,簡稱DDE)國際大科學計劃,并在2022年正式上線了DDE一站式在線研究平臺(13)https:∥deep-time.org/。。DDE聯合了地質科學家、數據科學家和計算機科學家,提供了非常便捷的基于用戶需求的數據提取和數據分析工具,極大地促進了數據的增長,同時為低溫熱年代學提供平臺,以便進行數據的匯集和存放。

4.1.3 社交網絡助力數據增長

20世紀以來,虛擬社交網絡的流行改變了人們溝通和獲取信息的方式,在帶動學術交流和學術傳播的同時,產生了專業的學術社交網絡平臺,如ResearchGate、Academia.edu等(Hailuetal.,2021)。學術社交網絡具有一些共有的特點,包括用戶的個人信息管理功能、用戶間的學術跟蹤和傳播功能、學術影響的輔助衡量功能等(Noorden,2014),大大促進了學術交流和合作。例如,作為全球最大的學術社交網絡平臺之一,ResearchGate目前用戶總量超過1000萬,幾乎遍布全球各個國家(Manca,2018; López-Hermosoetal.,2020)。由于平臺打破了學術相關的等級制度,用戶可自由聯系同行、分享科研成果、了解研究動態并上傳原始數據集。據不完全統計,通過ResearchGate分享的研究論文總計超過1億篇(Jamali,2017)。由此可見,社交網絡在協助低溫熱年代學數據增長方面擁有巨大潛力。

4.2 數據庫的可擴展性

隨著新的測試方法的不斷涌現,傳統的年代學數據庫結構可能需要隨時根據數據的類型做出調整。一些新的熱年代學方法(如4He/3He技術)及實驗方法(如裂變徑跡的 LA-ICP-MS 定年方法、(U-Th)/He與U-Pb的雙定年方法)的出現,將改變傳統的數據結構,增加數據存儲的復雜性。如何解決數據庫的可擴展性,靈活應對不斷變化的數據類型,也是新一代熱年代學數據庫面臨的重要問題。

現有的年代學數據庫大都采用關系型數據庫,它是一種嚴格結構化的數據存儲方式,其最典型的數據結構展現形式是二維表格,非常適用于邏輯性較強的地學數據(圖6a)。如DateView數據庫采用的Firebird、Petlab數據庫采用的Oracle、NGDB數據庫采用的Helix Express等,都是主流的關系型數據庫軟件。然而,在關系型數據庫中,既定數據結構和字段的橫向擴展困難,對非結構化的數據處理性能不盡如人意,因此難以適應那些采用新方法獲得的新字段、新解釋,以及非結構化的圖片數據(Gleadowetal.,2019)。而非關系型數據庫很好地填補了關系型數據庫的不足。非關系型數據庫并非為表,而是兼容結構化數據和非結構化數據存儲需求的面向數據集的數據庫(圖6b)。在實際應用中可結合2種數據庫的優勢,實現對地學上基本信息和解釋信息的全部收納,達到New SQL(Pavloetal.,2016)的效果。

圖6 關系型數據庫(a)與非關系型數據庫(b)的概念模型

此外,應用程序接口(API)的應用也可極大擴展和完善數據庫的功能,它允許開發人員在不了解內部原理的情形下使用模塊化的功能和操作,利于開發和維護,有效縮減開發成本(Zibranetal.,2011)。根據權威網站Programmableweb的統計顯示,2010年數據庫API的使用數量為2000,2022年已增加至超過24000個,其中數據統計分析、數據可視化API的應用非常廣泛(Basole,2016)。在新型數據庫中,AusGeochem、Sparrow等都提供了API接口,以便構建不同類型的數據分析和傳播方式。

4.3 更為靈活的編號體系與更為全面的功能設計

為數據設置持久、唯一且通用的標識符是數據庫設計的關鍵,這很大程度上決定了數據共享、鏈接和集成的能力(Klumpetal.,2017)。由于地質樣品在實驗、論文發表等過程中可能發生編號丟失或被重新命名,且部分樣品的命名規則存在主觀性,給樣品元數據的跟蹤、完善及學科間的互操作帶來了很大困難。為了解決這一問題,IGSN(International Geo Sample Number)應運而生(Klumpetal.,2021)。IGSN為地質樣品注冊了唯一的編號,增強了數據系統之間的互操作性。然而,其對于未注冊的樣品或精細化程度更高的單顆粒數據的管理仍然力不從心。

AusGeochem與IGSN官方代理Lithodat合作,為平臺提供了IGSN自動生成功能,這在一定程度上解決了未注冊樣品的編號問題,但單顆粒數據的管理仍然有待改善。Geochron數據庫中記錄了低溫熱年代學的單顆粒數據,其編碼依賴于樣品的原始命名。單顆粒數據隨著數據可解釋性的增加,其重要性越發明顯。以裂變徑跡為例,該方法測得的年齡與樣品內各顆粒的徑跡長度分布相關,且根據單顆粒的長度和年齡數據可以反演出該樣品的熱歷史,目前已被大量應用于盆山演化、古地貌恢復。因此,單顆粒數據命名的規范化應當在原樣品的基礎上給出更靈活的考慮。

5 結論

當前,國內外低溫熱年代學數據庫多以數據子集的形式附著存儲在地質年代學數據庫之中,其數據的表達、分析和解釋受到了很大限制,亟需建設專門的低溫熱年代學數據庫。通過對比分析不難發現,新一代低溫熱年學數據庫需能夠支持不同類型的數據來源、擁有更為靈活的數據存儲模式,以及具備完善的數據分析和可視化功能。同時,作為應對低溫熱年代學數據爆發式增長的必要基礎,如何保證數據庫的持續增長、進一步提高數據庫的可擴展性、建立靈活的數據編碼體系,也是必須要解決的首要問題。在未來的低溫熱年代學建庫工作中,需要融入開放學術的觀念,借助先進的信息挖掘和傳輸技術,利用結構化與非結構化數據相結合的存儲方式,以滿足從實驗室到科學家、再到數據用戶的綜合性需求。以此為理念,才能服務于新構造和地貌演化的研究需要,并有利于大數據的創新應用。

致謝本文成文過程中得到了李廣偉老師的指導和幫助,在此表示衷心感謝!

猜你喜歡
年代學徑跡低溫
《真空與低溫》征稿說明
福安土白語匯的語言年代學考察
基于蒙特卡羅模擬方法的圓筒形固體核徑跡氡探測器探測效率的研究
裂變徑跡LA-ICP-MS/FT法原理、實驗流程和應用
基于低溫等離子體修飾的PET/PVC浮選分離
鮮水河斷裂帶中南段同位素年代學及其地質意義
零下低溫引發的火災
海岱地區年代學新成果的思考與啟示
滇西半坡雜巖體斜長巖特征及其U-Pb年代學
低溫休眠不是夢
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合