?

基于大規模預訓練模型的地質礦物屬性識別方法及應用

2024-04-17 08:40王彬彬周可法王金林汪瑋李超程寅益
新疆地質 2024年1期

王彬彬 周可法 王金林 汪瑋 李超 程寅益

摘? ?要:地球科學的研究成果通常記錄在技術報告、期刊論文、書籍等文獻中,但許多詳細的地球科學報告未被使用,這為信息提取提供了機遇。為此,我們提出了一種名為GMNER(Geological Minerals named entity recognize,MNER)的深度神經網絡模型,用于識別和提取礦物類型、地質構造、巖石與地質時間等關鍵信息。與傳統方法不同,本次采用了大規模預訓練模型BERT(Bidirectional Encoder Representations from Transformers,BERT)和深度神經網絡來捕捉上下文信息,并結合條件隨機場(Conditional random field,CRF)以獲得準確結果。實驗結果表明,MNER模型在中文地質文獻中表現出色,平均精確度為0.898 4,平均召回率0.922 7,平均F1分數0.910 4。研究不僅為自動礦物信息提取提供了新途徑,也有望促進礦產資源管理和可持續利用。

關鍵詞:礦物信息提??;深度神經網絡;礦物文獻;命名實體識別

地球科學的研究成果通常記錄在技術報告、期刊論文、書籍等文獻中。近年來,開放數據倡議促使政府機構和科研機構將數據在線發布以供再利用[1-3]。許多國家地質調查機構(如USGS和CGS)已將地質調查成果在線發布。地球科學文獻作為開放數據的重要組成部分,為地質礦物信息提取研究提供了巨大機遇。

從地質科學文本數據中提取結構化信息、發現知識的研究在數字地球科學領域尚未深入探討。特別是在處理中文地質科學文獻時更為困難,因為中文單詞之間無空格,計算機難以識別有意義的詞匯或短語的邊界[4-5]?;谏疃葘W習的命名礦產實體識別是實現礦產信息自動提取的重要方法,也是構建礦產領域知識圖的前提條件。

目前,地質礦物命名實體識別領域的研究相對較少,在地質命名實體識別方面,一些學者已將深度學習應用于該領域,并取得一定成果。Zhang等 針對地質文獻特點[6],設計了一種基于深度信念網絡的地質命名實體識別模型。Qiu等提出了一種將雙向長短時記憶網絡(Bi-directional Long Short-Term Memory,BiLSTM)與CRF相結合的模型[7],該模型利用注意機制捕捉單詞之間的關聯信息,并從地質報告中提取地質實體,如地質歷史和地質結構。Li等構建了一種基于地質領域本體的中文分詞算法[8],并輔以自循環方法,以更好地分割地質領域文本。礦物信息的提取有以下3個難點:①礦物信息來源廣泛,包括文獻、專利、報告、新聞等多種類型的文本[9];②礦物信息的命名規范不統一,不同地區、不同領域、不同時間的命名方式可能存在差異,需進行多樣化命名實體識別;③礦物信息的語言表達復雜,包括詞匯多樣、語法復雜、語義模糊等問題。

為解決這些挑戰,我們提出了一種基于深度神經網絡的地質礦物命名實體識別模型,基于5份區域礦產領域報告,據礦產文本的特點,提取了礦產類型、地質構造、巖石和地質時間、成礦區域等信息。與前人所采用的方法相比,結合大規模預訓練模型BERT和深度神經網絡來學習上下文信息,使用條件隨機場來獲取最優全局標簽序列[10],最終實現地質礦物命名實體識別。

1? 方法

本文采用的大規模預訓練模型BERT和深度神經網絡的總體結構如圖1。整個模型分為BERT層、BiLSTM層、全連接層和CRF層。首先,BERT預訓練層在大規模無標注地質礦物數據集上進行無監督訓練,提取豐富的語法和語義特征,得到詞向量表示;然后將訓練好的詞向量輸入長短期記憶網絡進行特征提取,并將兩個神經網絡的輸出特征進行融合;最后,通過一個全連接層進行降維并將輸出的特征輸入到CRF層進行校正。

1.1? BERT

Devlin等提出了BERT模型[11],與OpenAI GPT中的從左到右Transformer和ELMo中的拼接雙向LSTM不同[12-13],BERT使用雙向Transformer模型架構[14](圖2)?!癟rm”代表Transformer塊。該模型使用注意力機制將任意位置的兩個單詞之間的距離轉換為1,使模型能夠充分考慮更長距離的上下文語義,有效解決了NLP中單詞和句子的長期依賴問題,并更全面地捕捉語句中的雙向關系。[]

該模型的輸入層是詞嵌入、位置嵌入和分段嵌入的組合。Transformer Block是基于注意力機制的編碼結構(圖3),是BERT的重要組成部分。在Transformer編碼單元中使用自注意力機制的工作原理主要是計算文本序列中單詞之間的相關性。其主要功能是引導神經網絡將注意力集中在能夠更好地影響輸出的特征上,并區分輸入對輸出的不同部分的影響。其中,編碼器由6個相同模塊堆疊而成。計算輸出公式(1)和公式(2)所示。

outputAtt=LayerNorm(x+Attention(x)) (1)

outputFnn=LayerNorm(outputAtt+FNN(outputAtt))…(2)

解碼器同樣堆疊有6個相同模塊。與編碼器模塊不同,在底層注意力層中添加了遮蔽,其目的是防止模型接觸未來時刻點上信息而影響訓練。單個頭的縮放點注意力計算公式如下:

其中,[xt]為當前的輸入,[ht-1]為上一步的隱藏狀態,[ft]為遺忘門,[it]為輸入門,[Ot]為輸出門,b為偏置,[Ct]為神經元在時間t記憶的信息,[Ct]為當前神經元要存儲的信息,[ht]為最終LSTM單元的輸出。

在將BiLSTM應用于命名實體識別時,將BERT獲得的地質礦物文本中每個單詞的向量表示作為輸入。通過使用LSTM,網絡可自動學習上下文特征,然后計算當前時間步的最佳分類結果。雖然仍為一個分類模型,但該網絡能夠獲取更好的上下文特征表示。

1.3? CRF

盡管BiLSTM和IDCNN神經網絡結構能捕捉上下文信息,但忽略了實體標簽之間的順序和關聯。在命名實體識別中,根據標注規則,如果某些標簽連續出現,則可能不符合語言邏輯。CRF可考慮標簽之間的邏輯關系,以獲得全局最優的標簽序列,因此在模型最后一層使用它來修改識別結果。其原理如下:

定義[Pij]為第i個符合第j個標簽的概率,輸入的句子序列[x={x1,x2,x3,…,xn}]與其預測序列[y=][{y1,y2,y3,…,yn}]得分計算公式如下:

公式(15)-(17)中,[y*]表示正確標簽的對數概率,[y]表示所有可能標記的集合,最優序列分類通過[K(x,y)]函數完成。

2? 實體識別實驗

2.1? 數據集

本研究使用的標注語料庫來自不同地區的5份中國區域調查報告,共計約50萬字。由于原始文本中有諸多干擾信息,如標題號、圖片和表格,這將使文本識別變得困難,因此首先對文本進行預處理,主要檢查文本格式和內容,去除圖片和表格,將連續的文本劃分為只包含單詞、標點符號、數字和空格的標記,且無地質礦物實體信息的句子已被刪除,最終得到了8 000個有效句子。對這些有效數據,本文按隨機選擇方法,按8∶1∶1的比例劃分為訓練集、驗證集和測試集。

2.2? 標注策略和評價指標

文本標注是指對文本中的實體和非實體進行標記。我們采用了“BIO”(Beginning、Inside、Outside)標注策略,其中“B”表示實體詞匯的第一個字符,“I”表示實體詞匯的所有中間字符,“O”表示非實體詞匯。我們共標注18 783個實體,包括礦產資源的6個主要特征:礦產地、巖石、地層、礦物類型、地質構造、地質時間(表1)。對于復雜實體,我們分別標注多個實體,例如“巖(B-LOC)金(I-LOC)礦(I-LOC)山(I-LOC)潛(B-ROC)火(I-ROC)山(I-ROC)巖(I-ROC)白(B-SG)山(I-SG)組(I-SG)”,“巖金礦山”、“潛火山巖”和“白山組”分別被標記為礦產地、巖石和地層。在實驗中,復雜實體也被單獨匹配。

命名實體識別的評價指標包括:精確率(P)、召回率(R)和F值。具體的定義如下:Tp表示模型正確識別的實體數量,Fp表示模型誤識別的實體數量,Fn表示模型漏掉的實體數量,即模型未能正確標識的實際存在的實體數量。這3個指標在NER評價標準中被廣泛使用[17-18]。

2.3? 實驗參數設置

實驗環境和參數設置模型在Python 3.7.3和TensorFlow 1.14.1中進行訓練和測試。實驗使用BERT-Base模型進行,該模型包含12個轉換層、768個維隱藏層和12頭注意機制。BiLSTM網絡有一個128維的隱藏層。注意機制層被設置為50維,且最大序列長度被設置為256,所有模型均在4×RTX 2080 Ti GPU上進行訓練(表2)。

2.4? 實驗和分析

在進行深度學習模型訓練前,合理設置超參數至關重要。學習率作為深度學習模型中的一個關鍵參數,對于目標函數的收斂速度及是否能夠收斂到局部最小值均有顯著影響。針對BERT-LSTM-CRF模型進行了學習率調整實驗。從實驗結果可以明顯看出(表3),將學習率設置為4e-5時獲得了最優的性能表現。

另一個在BERT模型中常用的正則化技術是dropout。該技術會隨機地將部分神經元輸出設為零,有助于降低模型過擬合風險。在BERT-LSTM-CRF模型中,我們對dropout率進行調整實驗。結果表明(表4),在實驗中將dropout設置為0.1時,能夠獲得最佳性能效果。

實驗結果進一步強調了超參數選擇的重要性,凸顯了在BERT-LSTM-CRF模型中的學習率和dropout率對模型性能影響的關鍵性。這些參數的優化可在一定程度上提高模型性能和泛化能力。實驗的命名實體識別模型結果見表5。

所有考慮的模型中,BERT-LSTM-CRF表現最佳,其精確度、召回率和F1值分別達0.898 4、0.992 7和0.910 4。在使用BERT與CRF結合的情況下,精確度、召回率和F1值分別為0.880 7、0.902 9和0.891 7。在引入雙向LSTM網絡后,F1值出現下降,可能是因為BERT已具良好的詞向量表示,而引入BiLSTM后導致過擬合現象。

當使用RoBERTa預訓練模型時,識別效果普遍下降。盡管RoBERTa和BERT均基于Transformer架構的預訓練語言模型,但在預訓練細節、超參數等方面可能存在差異。BERT的架構和超參數設置更適合地質礦物領域的命名實體識別任務。值得注意的是,在中文文本中,巖石和礦物類型相對容易辨別,且其標簽數量在所有實體中占比超過50%,因此,所有模型均表現出對“巖石”和“礦物類型”實體的良好識別效果,F1得分均超過90%。此外,表現較好的另外兩種實體類型是“地層”和“地質時間”,且它們對應的標簽數量也相對較多。

上述結果表明,在礦物實體識別任務中,BERT-LSTM-CRF模型的表現最佳,而RoBERTa預訓練模型表現一般。不同類型的礦物實體在各模型的識別效果也呈現出一定差異。

3? 結論和展望

本研究主要致力于運用深度學習構建命名實體識別模型,即從大量地質礦物相關文檔中提取命名實體。該工作為構建地質礦物知識圖譜提供了重要數據支持?;贐ERT-LSTM-CRF模型,筆者團隊從地質礦物文獻中提取出6種類型實體,實現了平均精確度0.898 4,平均召回率0.922 7,平均F1分數0.910 4。從實驗結果中得出以下結論:

(1) 在命名實體識別任務中,BERT-LSTM-CRF模型表現最佳,但引入BiLSTM會導致過擬合,從而降低模型性能。

(2) 當中文實體的語義區別明確且標簽充足時,實體識別效果更好。

(3) 在地質礦物領域命名實體識別任務中,RoBERTa不如BERT表現出色。BERT的架構和超參數設置更適合地質礦物領域命名實體識別任務。

盡管本研究在礦物命名實體識別方面取得了良好效果,仍有待進一步改進的空間:

(1) 針對標注較少的實體類型,有進一步提升其識別性能的空間。我們計劃通過擴充數據集中的礦物實體數量來解決此問題。

(2) 未來將針對地質礦物領域的特點進行模型調整和優化,以提高模型的領域適應性。

(3) 根據從地質礦物文本中所提取的信息構建地質礦物相關的領域知識圖譜。

參考文獻

[1] Ali S H,Giurco D,Arndt N,et al.Mineral supply for sustainable development requires resource governance[J].Nature,2017,543(7645):367-372.

[2] Cernuzzi L,Pane J.Toward open government in Paraguay[J].It Professional,2014,16(5):62-64.

[3] Ma X.Linked Geoscience Data in practice:Where W3C standards meet domain knowledge,data visualization and OGC standards[J].Earth Science Informatics,2017,10(4):429-441.

[4] Gao J,Li M,Huang C N,et al.Chinese word segmentation and named entity recognition:A pragmatic approach[J].Computational Linguistics,2005,31(4):531-574.

[5] Huang L,Du Y,Chen G.GeoSegmenter:A statistically learned Chinese word segmenter for the geoscience domain[J].Computers & geosciences,2015,76:11-17.

[6] Zhang X,Fan D,Xu J,et al.Sedimentary laminae in muddy inner continental shelf sediments of the East China Sea:Formation and implications for geochronology[J].Quaternary International,2018,464:343-351.

[7] Qiu Q,Xie Z,Wu L,et al.BiLSTM-CRF for geological named entity recognition from the geoscience literature[J].Earth Science Informatics,2019,12:565-579.

[8] Li W,Ma K,Qiu Q,et al.Chinese Word Segmentation Based on Self-Learning Model and Geological Knowledge for the Geoscience Domain[J].Earth and Space Science,2021,8(6):1673.

[9] Wang B,Ma K,Wu L,et al.Visual analytics and information extraction of geological content for text-based mineral exploration reports[J].Ore Geology Reviews,2022,144:104818.

[10] Sobhana N,Mitra P,Ghosh S K.Conditional random field based named entity recognition in geological text[J].International Journal of Computer Applications,2010,1(3):143-147.

[11] Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of deep bidirectional transformers for language understanding[J].arXiv preprint arXiv:2018,1810.

[12] Radford A,Narasimhan K,Salimans T,et al.Improving language understanding by generative pre-training[J].2018.

[13] Peters M E,Neumann M,Iyyer M,et al.Deep contextualized word representations[J].arXiv preprint arXiv,2018,1802.

[14] Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[J].Advances in neural information processing systems,2017,30.

[15] Bengio Y,Simard P,Frasconi P.Learning long-term dependencies with gradient descent is difficult[J].IEEE transactions on neural networks,1994,5(2):157-166.

[16] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural computation,1997,9(8):1735-1780.

[17] 莊云行,季鐸,馬堯,等.基于Bi-LSTM的涉恐類案件法律文書的命名實體識別研究[J].網絡安全技術與應用,2023 (7):36-39.

[18] 邱芹軍,田苗,馬凱,等.區域地質調查文本中文命名實體識別[J].地質論評,2023,69(04):1423-1433.

Geological Mineral Attribute Recognition Method Based on

Large-Scale Pre-Trained Model and Its Application

Wang Binbin1,2,4, Zhou Kefa2,3,5, Wang Jinlin1,2,3,4, Wang Wei1,2,3,4, Li Chao5, Cheng Yinyi2

(1.Xinjiang Research Center for Mineral Resources,Xinjiang Institute of Ecology and Geography,Chinese Academy

of Sciences,Urumqi,Xinjiang,830011,China;2.University of Chinese Academy of Sciences,Beijing,100049,China;

3.Technology and Engineering Center for Space Utilization, Chinese Academy of Sciences,Beijing,100094,China;

4.Xinjiang Key Laboratory of Mineral Resources and Digital Geology,Urumqi,Xinjiang,830011,China;

5.Institute of Geological Survey,China University of Geosciences,Wuhan,Hubei,430074,China)

Abstract: Geoscience research results are usually documented in technical reports, journal papers, books, and other literature; however, many detailed geoscience reports are unused, which provides challenges and opportunities for information extraction. To this end, we propose a deep neural network model called GMNER (Geological Minerals named entity recognize, MNER) for recognizing and extracting key information such as mineral types, geological formations, rocks, and geological time. Unlike traditional methods, we employ a large-scale pre-trained model BERT (Bidirectional Encoder Representations from Transformers, BERT) and deep neural network to capture contextual information and combine it with a conditional random field (CRF) to obtain more accurate and accurate information. The experimental results show that the MNER model performs well in Chinese geological literature, achieving an average precision of 0.8984, an average recall of 0.9227, and an average F1 score of 0.9104. This study not only provides a new way for automated mineral information extraction but also is expected to promote the progress of mineral resource management and sustainable utilization.

Key words: Mineral information extraction; Deep neural network; Mineral documentation; Named entity recognition

項目資助:新疆維吾爾自治區重大科技專項(2021A03001-3)、新疆科學考察項目(2022xjkk1306)、深空大數據智能建設(292022000059)聯合資助

收稿日期:2023-09-18;修訂日期:2024-01-09

第一作者簡介:王彬彬(1998-),男,陜西咸陽人,中國科學院大學地球探測與信息技術專業在讀碩士,研究方向為地質大數據;

E-mail: wangbinbin21@mails.ucas.ac.cn

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合