?

新疆館藏地質資料知識圖譜構建

2024-04-17 08:55劉瀟瀟孟小艷李東亞魏建新阿依謝姆古麗·阿卜杜艾尼付鈺朱彥菲
新疆地質 2024年1期
關鍵詞:館藏圖譜實體

劉瀟瀟 孟小艷 李東亞 魏建新 阿依謝姆古麗·阿卜杜艾尼 付鈺 朱彥菲

摘? ?要:為進一步提升新疆自然資源檔案館地質資料信息集成利用率,打破目前查借閱檔案僅限于目錄查找方式的現狀,引入知識圖譜對新疆館藏地質資料進行優化管理。以3 108檔館藏地質資料為數據源,通過本體構建確定實體和關系;基于BIO序列標注對新疆館藏地質資料數據進行人工標注;采用BERT-BiLSTM-CRF模型完成知識抽取,并選用圖數據庫Neo4j存儲新疆館藏地質資料知識,完成新疆館藏地質資料知識圖譜的構建。實驗結果表明,BERT-BiLSTM-CRF模型的準確率為98.177 7%、F1值為97.892 1%,能準確識別出新疆館藏地質資料中的地質實體。新疆館藏地質資料知識圖譜的構建為新疆自然資源檔案館的“數字檔案館”建設及新疆地質資料大數據社會化服務水平的提升奠定基礎。

關鍵詞:知識圖譜;地質資料;知識抽??;圖數據庫

地質資料是由地質部門收集、整理和保存的各種地質工作業務成果的記錄[1,2],為地質工作者提供有關地質構造、礦產資源等方面的信息,對我國發展具有重要的支撐作用。隨著科技的發展,地質領域也逐漸進入大數據時代,地質資料數量龐大,數據挖掘效率低下等問題亟待解決。

知識圖譜的概念最早由Google公司提出[3],是將客觀世界中的實體及實體之間的關系通過圖的形式進行表達的知識庫[4]。在地質學領域中,引入知識圖譜能夠為資源勘探、自然災害預測等方面提供支持[5]。地質領域知識圖譜構建的基礎是命名實體識別[6],即在未處理的地質領域文本中識別特定類別的專有名詞實體,其準確性直接影響地質領域多種自然語言處理技術的結果。張春菊在BiLSTM-CRF深度學習模型的基礎上[7],融合了BERT預訓練模型,對地質文本進行實體抽取,在提高命名實體識別準確率方面取得一定成效。Qiu等人針對從地質文獻中獲取地質實體的問題[8],提出Attention-BiLSTM-CRF模型,模型中使用的雙向LSTM能夠更好的獲取地質實體上下文的語義特征,但對長實體的識別準確率較低。

上述研究者均采用深度學習的方法對中文地質領域進行命名實體識別,但多數以地質相關文獻為數據源進行實體抽取,目前尚無針對新疆地質檔案知識圖譜構建技術的研究。本文將知識圖譜引入新疆館藏地質資料的信息化管理中,選用知識抽取模型BERT-BiLSTM-CRF及圖數據庫Neo4j完成新疆館藏地質資料知識圖譜的構建(圖1)。

1? 新疆館藏地質資料知識圖譜構建

本文從本體構建、數據預處理、知識抽取、知識存儲4個方面完成新疆館藏地質資料知識圖譜的構建,主要步驟如下:首先對新疆館藏地質資料進行分析,設計概念層次,確定實體和關系類型,完成本體構建。通過新疆自然資源檔案館的資料服務系統獲取地質檔案數據并進行預處理,知識抽取使用模型BERT-BiLSTM-CRF完成,并選用圖數據庫Neo4j存儲新疆館藏地質資料知識,完成新疆館藏地質資料知識圖譜的構建。

1.1? 本體構建

本體構建主要完成知識圖譜概念層次的設計,包括關系設計和實體類型設計(表1,2)。經過相關領域專家及專業文獻書籍,確定了11種實體類型和20種關系類型,不同實體類型示例見表3,不同關系類型示例見表1。據實體和關系類型設計合適的三元組模式,可很好地將地質檔案數據進行結構化表示,便于后續的知識應用。

1.2? 數據預處理

新疆自然資源檔案館的部分館藏地質資料作為數據的主要來源,主要包括結構化數據和非結構化數據。為方便后續知識圖譜的構建,將結構化數據進行篩選、去重,并將多余數據和空值刪除。對于非結構化數據,采用BIO序列標注法,通過精靈標注助手將需要抽取的實體標注為“B-X”、“I-X”或者“O”格式(圖2)。

1.3? 命名實體識別模型

BERT-BiLSTM-CRF模型是命名實體識別中的經典序列標注模型之一[9]。輸入的文本序列經BERT模型轉化為上下文相關的詞向量,作為BiLSTM的輸入;BiLSTM對序列進行雙向時序建模,進行深度學習全文特征信息;最后結合CRF算法和BIO標注的文本特征,進行序列級別的標簽推斷,獲得最優標簽序列。

1.3.1? BERT預訓練模型

BERT預訓練模型(BidirectionalEncoder Representations from Transformer,BERT)運用雙向Transformer編碼器,可更深層次地獲取上下文語義信息,挖掘中文實體元素中嵌入的潛在語義[10]。輸入的文本序列[E=(E1,E2,…,En)]經過雙向Transformer編碼器Trm進行特征提取,輸出具有特定信息的字符級向量[T=(T1,T2,…,Tn)](圖4)。

1.3.2? BiLSTM層

長短記憶網絡(Long Short-Term Memory,LSTM)可處理具有向后和向前依賴性的數據[11](圖5),因此常被應用在文本數據處理工作中。但其無法將信息從后向前進行編碼。雙向長短記憶網絡BiLSTM在LSTM的基礎上增加了一個后向LSTM,一個正向處理輸入序列,另一個反向處理輸入序列,從而達到捕獲雙向特征的效果。

1.3.3? CRF層

條件隨機場(Conditional Random Field,CRF)是一種通過輸入序列計算得出輸出序列的判別式模型[12]。設[M=(m1,m2,…,mn)]和[N=(n1,n2,…,nn)]分別為兩組隨機變量的輸出序列和狀態序列,線性鏈式條件隨機場定義如下:

在CRF層中加入約束,可降低輸出錯誤標簽的概率,保證最后輸出的預測結果是有效的。計算公式如下:

P——從BiLSTM層得到的發射分數矩陣;

A——CRF層學習得到的轉移矩陣;

[Pi,ni]——第[i]個字符被預測為第[ni]個標簽的分? ? ? ? ? ? ? ? ? ? ? ? ?數值;

[Ani,ni+1]——第[ni]個標簽轉移到第[ni+1]個標簽的? ? ? ? ? ? ? ? ? ? ? ? ? ? 分數值。

CRF通過相鄰標簽之間的關系獲得一個最優的預測序列,如:“B-大地構造”后面無法接“B-成礦帶”,彌補了BiLSTM只能預測文本序列與標簽的關系,而不能預測標簽與標簽之間關系的缺點。

1.4? 知識存儲

將包含三元組信息的CSV文件使用Neo4j-import方法導入圖數據庫Neo4j中進行知識存儲,完成新疆館藏地質資料知識圖譜構建。作為經典開源圖數據庫之一的Neo4j[13],以圖的形式存儲實體、關系和屬性信息,并通過Cypher查詢語言實現高效的圖查詢和搜索功能,更適合新疆館藏地質資料知識圖譜的使用場景。因此選用圖數據庫Neo4j對新疆館藏地質資料知識圖譜進行存儲。

2? 實驗分析

2.1? 實驗環境及評價指標

實驗在64位Windows操作系統上進行,實驗環境配置為AMD Ryzen7 6 800H CPU、NVIDIA GeForce RTX 3 060(6G)GPU、16G內存,使用Python3.8和PyTorch1.7+cu110版本算法框架進行實驗模型訓練。

實驗評價指標使用精確率(Precision,P)、召回率(Recall,R)、F1值(F1 Score),公式如下:

TP——真實體并預測為真的實體數量;

FP——假實體但預測為真的實體數量;

FN——真實體但預測為假的實體數量;

TN——假實體并預測為假的實體數量。

2.2? 模型對比實驗

實驗中使用的數據集為使用精靈標注助手軟件進行人工標注的館藏地質資料語料。為保證BERT-BiLSTM-CRF模型對新疆館藏地質檔案命名實體識別的有效性,選擇以下幾種命名實體識別任務中的主流模型在相同的數據集上進行對比實驗:BERT-CRF、BERT-IDCNN-CRF、BERT-BiGRU-CRF。針對BERT-CRF模型是為了對比模型中有無全文特征提取層BiLSTM對命名實體識別結果的影響。針對BERT-IDCNN-CRF和BERT-BiGRU-CRF對比觀察BiLSTM、BiGRU、IDCNN 3種循環神經網絡特征提取的差異性對最終結果的影響。從圖6可看出,4種模型訓練期間精確率變化。

BERT-BiLSTM-CRF模型在新疆館藏實體的識別效果上要優于另外3種模型(表3),說明提取文本前后向特征的BiLSTM更適合新疆館藏地質資料中地質實體提取。

3? 新疆館藏地質資料知識圖譜的應用

3.1? 知識圖譜可視化

為更直觀地展示新疆館藏地質資料知識圖譜,使用不同顏色區分不同實體類型,即每種顏色代表一種實體類型。實體之間有向箭頭表示關系,構成“圓-線-圓”的知識圖譜三元組模式。通過可視化的方式展示知識圖譜,可幫助用戶更直觀地理解和應用知識圖譜中的信息(圖7)。

3.2? 實體屬性及關系查詢

根據關鍵詞查找與某關鍵詞有所屬關系的地質資料數據,如:查找含有資金來源為“中央財政”的案卷號(圖8),執行語句如下:

MATCH (a:案卷號)-[:資金來源]->(b:資金來源 {資金來源:‘中央財政}) RETURN a,b LIMIT 25

4? 結論

本文將知識圖譜構建技術與新疆自然資源檔案館的海量館藏地質資料相結合,采用自頂向下的方式,根據地質資料的特點構建新疆館藏地質資料知識本體;結合深度學習的方法完成知識抽取,通過對4種命名實體識別主流模型進行對比實驗,得出BiLSTM循環神經網絡更適用于新疆館藏地質資料檔案的地質實體抽取。選用圖數據庫Neo4j進行地質知識存儲,完成新疆館藏地質資料知識圖譜構建?;谛陆^藏地質資料知識圖譜實現新疆館藏地質資料檔案信息可視化與查詢,為新疆自然資源檔案館的“數字檔案館”建設及新疆地質檔案知識挖掘和利用提供參考。

參考文獻

[1] 邱芹軍,王斌,徐德馨,等.地質領域文本實體關系聯合抽取方法[J].高校地質學報,2023,29(3):419.

[2] 張曄.地質專業檔案領域知識圖譜的構建和應用[J].浙江檔案,2021(10):44-47.

[3] Wang P,Jiang H,Xu J,et al.Knowledge Graph Construction and Applications for Web Search and Beyond[J].Data Intelligence,2019,1(4):333-349.

[4] 黃恒琪,于娟,廖曉,等.知識圖譜研究綜述[J].計算機系統應用, 2019,28(6):1-12.

[5] 王劉坤,李功權.基于GeoERNIE-BiLSTM-Attention-CRF模型的地質命名實體識別[J].地質科學,2023,58(3):1164-1177.

[6] Ma X,Ma C,Wang C.A new structure for representing and tracking version information in a deep time knowledge graph[J].Computers & Geosciences,2020,145:10462

[7] 張春菊,張磊,陳玉冰,等.基于BERT的交互式地質實體標注語料庫構建方法[J].地理與地理信息科學,2022,38(4):7-12.

[8] Qiu Q,Xie Z,Wu L,et al.BiLSTM-CRF for geological named entity recognition from the geoscience literature[J].Earth Science Informatics,2019,12:565-579.

[9] 湯潔儀,李大軍,劉波.基于BERT-BiLSTM-CRF模型的地理實體命名實體識別[J].北京測繪,2023,37(2):143-147.

[10] Huang C,Wang Y,Yu Y,等.Chinese Named Entity Recognition of Geological News Based on BERT Model[J].Applied Sciences, Multidisciplinary Digital Publishing Institute,2022,12(15):7708.

[11] Jin Y,Xie J,Guo W,et al.LSTM-CRF neural network with gated self attention for Chinese NER[J].IEEE Access,2019,7:136694-136703.

[12] 余本功,范招娣.面向自然語言處理的條件隨機場模型研究綜述[J].信息資源管理學報,2020,10(5):96-111.

[13] 杭婷婷,馮鈞,陸佳民.知識圖譜構建技術:分類、調查和未來方向[J].計算機科學,2021,48(2):175-189.

Construction of Knowledge Graph for Geological Data in Xinjiang Collection

Liu Xiaoxiao1,2,3, Meng Xiaoyan1, Li Dongya1, Wei Jianxin2,3, Ayxiem Gul·Abduani2, Fu Yu4, Zhu Yanfei5

(1.College of Computer and Information Engineering,Xinjiang Agricultural University,Urumqi,Xinjiang,830052,China;2.Xinjiang Uygur Autonomous Region Natural Resources Information Center (Xinjiang Uyghur Autonomous Region Natural Resources Archives),Urumqi,Xinjiang,830002,China;3.Xinjiang Laser Radar Application Engineering Technology Research Center,Urumqi,Xinjiang,830002,China;4.School of Information Science and Technology,

Qingdao University of Science and Technology,Qingdao,Shandong,266061,China;5.Xinjiang Uyghur

Autonomous Region Geological Survey Institute,Urumqi,Xinjiang,830000,China)

Abstract: To further enhance the integrated utilization of geological data information in the Xinjiang Natural Resources Archives and break the current limitation of archival retrieval only through catalog search, a knowledge graph is introduced to optimize the management of geological materials in the Xinjiang Archives. Partial geological materials in the archives are used as the data source, and entities and relationships are determined through ontology construction. The Xinjiang geological materials data is manually annotated using a BIO sequence labeling method. The BERT-BiLSTM-CRF model is employed for knowledge extraction, and the Neo4j graph database is used to store the knowledge of Xinjiang geological materials, completing the construction of the Xinjiang Geological Materials Knowledge Graph. Experimental results show that the BERT-BiLSTM-CRF model achieves an accuracy rate of 98.1777% and an F1 score of 97.8921%, significantly outperforming the BERT-CRF, BERT-IDCNN-CRF, and BERT-BiGRU-CRF models. The construction of the Xinjiang Geological Materials Knowledge Graph can provide a foundation for the development of a "Digital Archives" in the Xinjiang Natural Resources Archives and enhance the socialization of Xinjiang geological data big data services.

Key words: Knowledge graph; Geological information; Knowledge extraction; Graph database.

項目資助:新疆維吾爾自治區地質資料智能服務系統項目資助

收稿日期:2023-09-21;修訂日期:2024-01-02

第一作者簡介:劉瀟瀟(1998-),女,山東濟寧人,2021級新疆農業大學計算機技術專業在讀碩士,研究方向為知識圖譜;

E-mail:2958566734@qq.com

通訊作者:孟小艷(1978-),女,博士,副教授,研究方向為知識圖譜,人工智能;E-mail: 11360883@qq.com

猜你喜歡
館藏圖譜實體
館藏
繪一張成長圖譜
博物館的生存之道:館藏能否變賣?
前海自貿區:金融服務實體
知還印館藏印選——古印篇
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
補腎強身片UPLC指紋圖譜
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
主動對接你思維的知識圖譜
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合