?

基于煤礦井下不安全行為知識圖譜構建方法

2024-03-01 09:53付燕劉致豪葉鷗
工礦自動化 2024年1期
關鍵詞:三元組性行為圖譜

付燕, 劉致豪, 葉鷗

(西安科技大學 計算機科學與技術學院,陜西 西安 710054)

0 引言

近年來雖然煤礦井下事故發生率逐年降低,但每年仍有較多的煤礦井下安全生產事故發生。據相關統計,由于工作人員的不安全行為導致的安全生產事故在中國煤礦井下安全生產事故中占比高達97.67%[1]。因此,研究井下工作人員的不安全行為對降低事故發生率、實現煤礦井下安全生產具有重要意義。

由于煤礦數據的復雜性,利用大數據安全管理系統難以實現結構化不安全行為知識的語義關聯及知識推理。知識圖譜擁有較好的知識結構性及較強的表達性,能更加直觀地描述各類概念之間的關系,從而實現井下不安全行為數據挖掘。知識圖譜按照構造方式的不同可分為基于規則的知識圖譜構建方法、基于統計的知識圖譜構建方法和基于深度學習的知識圖譜構建方法3 類。① 基于規則的知識圖譜構建方法。N. Guarino 等[2]提出基于本體學的知識表示和推理方法OntoClean,其通過定義本體的基本概念、屬性和關系等方式來表示和推理知識,OntoClean 已廣泛應用于語義Web 和知識圖譜的構建。但OntoClean 只能處理簡單、單一的知識,難以應用于豐富、復雜的知識領域中。Horrocks 等[3]提出SWRL(A Semantic Web rule language combining OWL and RuleML),該方法可與OWL(Web Ontology Language)等本體語言結合使用,以表示更加豐富和復雜的知識,可處理多層次和不對稱的語義關系。但SWRL和OWL 這2 種基于規則的方法需領域專家對知識進行抽象和分類,且需手動構建規則和邏輯表達式,知識圖譜的構建過程較耗時和復雜,且缺乏自適應性。② 基于統計的知識圖譜構建方法。A.Bordes 等[4]提出了一種基于超平面轉換的知識圖譜嵌入方法,稱為TransE,該方法使用向量空間中的超平面來表示實體和關系之間的轉換,以便在低維空間中對知識圖譜進行建模。但該方法只能處理單一類型的實體。 Wang Zhen 等[5]對TransE 進行了擴展,提出了一種適用于含有異質實體的知識圖譜嵌入方法,稱為TransH,該方法將實體投影到不同的超平面上,以處理不同類型的實體。但基于統計的知識圖譜構建方法只能對語言表面的信息進行提取,難以理解語言中的隱含信息和語義,難以準確捕捉實體之間的關系。③ 基于深度學習的知識圖譜構建方法。劉文聰等[6]采用雙向長短時記憶(Bidirectional Long Short-Term Memory,BiLSTM)模型與條件隨機場(Conditional Random Field,CRF)模型相結合的方式抽取中文地質時間信息,在一定程度上解決了傳統方法特征提取不足的問題。吳闖等[7]利用BERT(Bidirectional Encoder Representations from Transformers)-BiLSTM-CRF 模型對航空發動機設備潤滑系統進行命名實體識別,先利用BERT 模型進行詞向量化,再進行實體識別,在一定程度上改善了實體識別的效果。然而,傳統的BERT 模型在進行詞語向量化時易造成大量實體和語義丟失。

雖然知識圖譜已廣泛應用于各個領域,但在煤礦安全方面,尤其在煤礦井下不安全行為方面的研究較少。因此,本文提出了一種基于煤礦井下不安全行為知識圖譜構建方法。首先,針對煤礦井下不安全行為的命名實體識別問題,結合現有的知識,用傳統機器學習和深度學習算法相結合的方法進行命名實體識別,采用RoBERTa(Robustly Optimized BERT pretraining Approach)進行詞語向量化后,通過BiLSTM 對向量進行標注,提高網絡模型對上下文特征的捕捉能力。其次,根據語句的結構特點,設計了基于知識三元組的依存句法樹結構,并根據該數據結構對井下不安全行為領域的知識資源進行知識抽取與表示。最后,利用圖數據庫Neo4j 存儲煤礦井下不安全行為知識,形成井下不安全行為知識圖譜。

1 相關理論方法

知識圖譜的主要任務是使用符號的方式去描述本體的概念及其相互之間的關系,其本身是具有屬性的實體通過關系鏈接而成的網狀知識庫。其基本組成單位是“實體-關系-實體”及“實體-屬性-屬性值”三元組[8-10]。當前,知識圖譜主要分為自頂向下及自底向上2 種構建方式。

1.1 自頂向下的知識圖譜構建方法

自頂向下的知識圖譜構建方法是從較高質量的結構化數據源中獲取數據資源,并根據結構化數據源中預先定義的實體關系來構建完整的知識圖譜[11-12]。自頂向下的知識圖譜構建分為以下3 個步驟:① 通過大量結構化數據源完成本體知識庫的構建,包括本體學習和相應規則制定。② 進行實體學習,主要包括實體鏈接和實體填充2 項任務。③ 構建圖譜。

1.2 自底向上的知識圖譜構建方法

自底向上的知識圖譜構建方法是從大量知識密度小且沒有固定關系的半結構化[13-14]、非結構化數據源中獲取知識資源,從而完成知識圖譜的構建。自底向上的知識圖譜構建主要包含知識抽取、知識融會及圖譜構建3 個步驟。其中知識抽取包含實體識別、關系抽取及屬性抽取3 個任務,知識融會的主要任務是進行實體消歧。

2 知識圖譜構建方法

由于本文采用的是開放數據源,其中包含大量半結構化、非結構化數據,故而采用自底向上的知識圖譜構建方法。

2.1 數據的獲取、預處理

本文采用的數據源主要為開放的文獻知識資源及《煤礦安全規程》中的相關規定。其中文獻知識資源是從知網中主題或關鍵詞為“不安全行為 煤礦”檢索得到的文獻。經篩選,保留其中210 篇作為實驗數據。本文采用BIO(Beginning-Inside-Outside)標準標注策略對不安全行為實體進行標注。通過參考中國國家標準化管理委員會發布的煤礦科技術語匯總表,對文獻[1]、文獻[15]中關于不安全行為的研究內容進行分析,將井下不安全行為實體分為遺忘性行為、粗心性行為、錯誤性行為、違反性行為、關聯因素影響行為及導致后果6 種,見表1。將屬于一個命名實體開始的token 標記為B-label,對于屬于命名實體類型但不是第1 個字的token 標記為I-label,其他不屬于命名實體范圍的統一用O 進行標記。

表1 實體待預測標簽Table 1 Entity to be predicted labels

2.2 實體識別

針對井下不安全行為實體識別中實體數量龐大、交替頻繁、語義復雜等問題,需選擇合適的命名實體識別方法?;诒O督的統計學習方法在實體識別過程中依賴大型標注語料庫進行模型訓練,不適合沒有專業大型語料庫的井下不安全行為,容易出現實體識別不準確的情況。因此,本文采用改進神經網絡模型實現井下不安全行為實體識別。在BiLSTM-CRF 基礎上引入RoBERTa 及多層感知機(Multilayer Perceptron,MLP)作為井下不安全行為命名實體識別模型(RoBERTa-BiLSTM-MLP-CRF)。將預處理后的數據分為訓練集和測試集,訓練集通過RoBERTa 模型將輸入的文本序列轉換為具有豐富上下文語義的詞向量,RoBERTa 模型的輸出向量作為BiLSTM 模型的輸入,以提取上下文的特征值。由于所獲得的煤礦井下不安全行為語料數據量少,為了獲得更好的模型訓練效果,在BiLSTM 層與CRF 層中間加入MLP,并將開源數據集的輸出維度與煤礦數據集輸出維度進行統一,達到遷移學習的目的。CRF 模型用于標注輸入注釋序列的實體。具體實體識別流程如圖1 所示。

圖1 基于RoBERTa-BiLSTM-MLP-CRF 實體識別過程Fig. 1 RoBERTa-BiLSTM-MLP-CRF based entity recognition

2.2.1 RoBERTa 模型

RoBERTa 模型是一種基于Transformer 神經網絡的預訓練模型。當前,基于神經網絡的預訓練技術主要分為靜態詞向量與動態詞向量2 大類。① 靜態詞向量。Word2Vec[16]詞向量模型能從大規模語料庫中得到高精度的詞向量。Glove[17]模型結合了 Word2Vec 及矩陣分解模型(Singular Value Decomposition,SVD)的優點,訓練速度顯著提高。靜態詞向量模型在一定程度上可得到較為精準的詞向量,但無法解決一詞多義的問題。② 動態詞向量。ELMo 模型[18]采用長短時記憶(Long Short-Term Memory,LSTM)模型,在一定程度上解決了一詞多義的問題。但ELMo 模型采用的雙向拼接特征融合方式比一體化的融合方式要弱。BERT 模型[19]采用雙向語言模型、掩碼語言模型(Masked Language Model,MLM)和NSP(Next Sentence Prediction)3 種技術,在現階段自然語言領域中被廣泛應用,但BERT 龐大的參數量使得實際應用面臨困難。RoBERTa 模型對 BERT 模型的超參數進行改進,與BERT 模型相比,RoBERTa 模型擁有更優越的模型性能。RoBERTa采用動態掩碼的方式學習不同的特征,解決了傳統BERT 訓練時大量短語和實體丟失的問題。由于煤礦井下不安全行為文本數據比較復雜,存在大量一詞多義的現象,導致實體識別效果較差,因此,本文選擇RoBERTa 作為詞向量抽取模型,其模型如圖2所示,其中X1—X4為詞的向量化特征,E1—E4為輸入文本序列。

2.2.2 BiLSTM 模型

LSTM 模型在進行文本特征提取時,利用其復雜的網絡結構可較好地捕獲長距離依賴關系,但對于輸入信息無法進行反方向解碼,不能捕獲雙向語義依賴關系。煤礦井下不安全行為文本數據具有冗余特性,其數據文本語句通常較長且關系復雜。因此,提出BiLSTM 模型,如圖3 所示,Xt為當前時刻t的詞向量化特征,ht為當前時刻t的隱藏狀態,表示BiLSTM 模型的輸出結果。BiLSTM 模型在命名實體識別模型中的作用是捕獲文本序列的上下文特征,對雙向語義依賴關系進行捕捉。

圖3 BiLSTM 模型Fig. 3 BiLSTM model

2.2.3 MLP 模型

由于煤炭領域數據的復雜性,能夠收集到的煤礦井下不安全行為數據量較小,模型訓練結果相對較差。為解決該問題,本文在BiLSTM 層與CRF 層中間加入MLP[20],將開源數據集輸出維度與煤礦數據輸出維度進行統一,利用知識遷移的方式彌補數據量不足的問題。首先,通過RoBERTa、BiLSTM與清華大學的開源數據集THUCNews 進行訓練,得到1 個初始模型,該模型已獲得THUCNews 數據集中包含的一些特征參數,將其作為煤礦數據集訓練初始模型參數;其次,通過MLP 將開源數據集THUCNews 輸出維度與煤礦數據集輸出維度進行統一。MLP 模型結構如圖4 所示。

圖4 MLP 模型Fig. 4 MLP model

2.2.4 CRF 模型

雖然經過BiLSTM 及MLP 模型之后輸出的信息是選擇輸出概率最高的標簽,但沒有考慮到不同單詞之間的關系,輸出的標簽可能會混淆且缺乏邏輯。因此,引入CRF 模型來解決單詞關系不識別問題,并捕獲全文信息和預測結果。該模型可表示為P(x|y),其中,x為輸入變量,表示輸入的觀測序列;y為輸出序列,表示對應x的標簽序列。假設給定一個輸入序列x=(x1,x2,···,xn)和相應的標注序列y=(y1,y2,···,yn),且每個(xi,yi)對是線性鏈中最大團,若同時滿足式(1),則稱P(x|y)為線性鏈的條件隨機場。

式中:i為當前字符所在位置;n為輸入句子長度;yi和yi-1分別為當前單詞的標簽及前一個單詞的標簽。

給定預設的觀測序列x,CRF 模型求解隱態序列y的公式為

式中:tj為i處的傳遞特征; λj為tj對應的權重;sl為i處的狀態特征; μl為sl對應的權重;j和l為特征函數的數量;z(x)為歸化因子。

線性鏈CRF 模型(圖5)對標簽之間的約束關系進行預測,以此提高命名實體識別的準確性。

圖5 線性鏈CRF 模型Fig. 5 Linear chain CRF model

對每個單詞進行評分,條件概率模型P(x|y)通過最大似然估計來計算。在實際預測過程中,對于給定的觀測序列,計算其最大標簽序列。評分公式為

式中:ui為i處詞向量的特征;fj為ui對應的權重;m為特征函數的總數量。

2.2.5 RoBERTa-BiLSTM-MLP-CRF 模型

RoBERTa-BiLSTM-MLP-CRF 模型如圖6 所示,其中xt為當前時刻的輸入特征。模型從下往上依次是字向量層RoBERTa、融合層、Farward LSTMBackward LSTM、輸出層、MLP 和CRF 層。該模型輸入的是序列化文本,如圖中輸入層輸入的文本“井下打架”。在CRF 層輸出相應的注釋序列,輸出序列采用BIO 標注方式進行標注。

圖6 RoBERTa-BiLSTM-MLP-CRF 模型Fig. 6 RoBERTa-BiLSTM-MLP-CRF model

2.2.6 模型評估標準

采用精確率P、召回率R和F1值3 個標準來評價RoBERTa-BiLSTM-MLP-CRF 模型對井下不安全行為實體識別的效果。

式中:NTP為被預測為正樣本的正樣本數量;NFP為被預測為正樣本的負樣本數量;NFN為被預測為負樣本的正樣本數量。

2.3 關系抽取

本文數據來源于開放的相關文獻及《煤礦安全規程》,其中《煤礦安全規程》中的文本數據為一條條規章制度,滿足依存句法的單句中只能存在一個核心成分、每一個詞語僅有一個依存對象、核心詞不可與其兩邊的詞產生依存關系等條件,且開放的文獻文本知識一般高度凝練,故采用依存句法進行關系抽取。王志廣等[21]在進行地址領域實體關系抽取時提出聯合抽取模型,該方法在一定程度上解決了并列句三元組抽取豐富的問題,但依然比較容易出現模式不匹配的現象,會造成大量知識不能被抽取。針對該問題, 本文將句子的依存關系轉換為語法樹,分析比對三元組知識的枝條結構,利用樹的遍歷去搜索整個句子的語法樹結構;并將每個并列句視為單獨存在的句子,分步對其進行三元組抽取,更深度地抽取語句知識。

2.4 知識融會

知識融會的主要任務是對知識信息進行有效融合統一,將上述流程中得到的一些缺乏層次性與邏輯性的冗余信息及錯誤概念剔除,從而提高知識圖譜數據庫的知識質量[22]。知識融會主要包含實體消歧[23]和共指消解2 個任務。實體消歧的任務是解決相同表述指代不同實體的問題。例如,“煤炭運輸”在本文中指的是“井下勞作中的煤炭運輸”,有的描述則是指“運貨火車的煤炭運輸”,因此,要聯系上下文的語義,明確命名實體的確切含義。共指消解的任務是處理多種描述指代同一實體的問題,例如,“個體因素”“個體原因”“單人因素”均對應的是“個體因素”這一單元實體,在人工撰寫的安全報告、事故報告中,用語不規范現象普遍存在。為解決此問題,本文采用余弦距離和Jaccard 相關系數相結合的方式計算井下不安全行為實體之間的相似度。通過相似度確定對齊實體是否匹配,從而實現知識融會,得到統一規范的井下不安全行為實體名稱。

式中:Sconsine為余弦相似度;SJarccard為Jarccard 相似度;A和Q為2 個實體的屬性字符串。

任意2 個實體之間的語義相似度大小與余弦相似度和Jarccard 相似度的大小成正比。井下不安全行為文本知識實體表述見表2,可看出對于“不安全動作”和“不安全行為”2 個不同表述的實體,其Jarccard 相似度SJarccard為0.43,余弦相似度Sconsine達到0.60,進而得到“不安全動作”和“不安全行為”2 個實體實際上為同一概念,應該融合為同一實體。

表2 實體相似度計算實例Table 2 Example of entity similarity calculation

2.5 知識存儲

井下不安全行為文本數據經過上述流程處理后,從多元異構狀態轉換為結構化狀態。知識存儲的任務就是將各類知識存儲為“實體-關系-實體”或“實體-關系-屬性”的三元組形式。

本文采用圖數據庫Neo4j 來實現井下不安全行為知識的存儲??紤]Neo4j 只需插入節點與邊就可實現數據的高效存儲和查詢[24],利用帶屬性的圖模型將實體存儲為節點,實體屬性存儲為節點屬性,邊和邊的屬性表示關系與關系屬性,標簽表示描述知識的概念?;贜eo4j 的知識存儲方案見表3。

表3 基于Neo4j 的知識存儲方案Table 3 Neo4j-based knowledge storage solutions

3 實驗結果與分析

3.1 模型參數設置

本次實驗采用TensorFlow1.15.5 框架進行模型的搭建,實驗中批尺寸為32,學習率為0.001,迭代次數為50。

3.2 實體識別結果

實驗采用預處理的井下不安全行為文本語料庫進行訓練?;谠撐谋緮祿?,本文預定義了遺忘性行為、粗心性行為、錯誤性行為、違反性行為、關聯因素影響行為、導致后果6 種實體類型,識別效果見表4。

表4 實體類型識別效果Table 4 Entity type identification effect%

由表4 可看出,本文模型對于導致結果、違反性行為、錯誤性行為及粗心性行為4 類實體具有較好的識別效果,其準確率分別為86.7%,80.3%,80.7%,77.4%,對于遺忘性行為及關聯因素影響性行為識別效果較差,其準確率分別為63.5%,73.0%。這是因為導致后果、違反性行為、錯誤性行為及粗心性行為包含的實體表達形式較為固定,而遺忘性行為及關聯因素影響性行為包含的實體語義復雜且較長,從而導致識別效果較差。

為了驗證本文模型的有效性,將本文模型與BiLSTM-CRF, BERT-BiLSTM-CRF, RoBERTa-BiLSTM-CRF 模型進行對比,結果見表5。

由表5 可看出,BERT-BiLSTM-CRF 模型的準確率比 BiLSTM-CRF 模型提高了3.7%,這表明進行實體識別之前進行詞向量化是必要的;RoBERTa-BiLSTM-CRF 模型的準確率較BERT-BiLSTM-CRF模型提高了0.7%,這表明RoBERTa 模型比BERT 模型更適合本次任務;RoBERTa-BiLSTM-MLP-CRF模型的準確率、召回率、F1較RoBERTa-BiLSTM-CRF模型分別提高了1.6%,1.5%,1.6%,這表明添加MLP后能夠學習更多公共數據集的特征,用此模型對公共數據集進行訓練,對于本次實驗有正確的導向作用。

3.3 知識圖譜構建結果

以井下不安全行為文本中的實體為節點,以實體之間的關系為邊,將其存儲在Neo4j 圖數據庫中,從而構成煤礦井下不安全行為知識圖譜。部分煤礦該圖譜井下不安全行為知識圖譜如圖7 所示??煽闯鲈搱D譜通過“包含”“關聯”等關系將不安全行為與影響因素及行為類別連接起來,通過“違規作業”等關系將行為實體與發生部門連接起來,構建了井下不安全行為不同實體間的相關關系,為煤礦井下進行員工管理提供了強有力的支持,進而提高了井下安全管理效率 。

圖7 部分煤礦井下不安全行為知識圖譜Fig. 7 Knowledge graph of underground unsafe behavior in some underground coal mines

4 結論

1) 提出將句子的依存關系轉化為語法樹,分析比對三元組知識的枝條結構,利用樹的遍歷去搜索整個句子的語法樹結構,實現煤礦井下知識三元組抽取。

2) 構建了煤礦井下不安全行為知識圖譜,為煤礦井下進行安全管理提供了強有力的支持,進而提高了煤礦井下安全管理效率。

3) 在構造煤礦井下不安全行為命名實體識別與知識三元組抽取時,由于收集文本數據集只包含部分煤礦井下不安全行為,使得命名實體識別與知識三元組抽取具有局限性且不可避免地會出現缺失和錯誤。因此,下一步將逐步補充和完善煤礦井下不安全行為知識體系。

猜你喜歡
三元組性行為圖譜
基于帶噪聲數據集的強魯棒性隱含三元組質檢算法*
昆明市不同性角色MSM的性行為特征分析
特征標三元組的本原誘導子
繪一張成長圖譜
關于余撓三元組的periodic-模
我國15省大學生首次性行為發生年齡及影響因素
補腎強身片UPLC指紋圖譜
主動對接你思維的知識圖譜
梁方程解的爆破及漸近性行為
三元組輻射場的建模與仿真
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合