?

融合領域詞典嵌入的航空不安全事件命名實體識別

2024-04-01 05:12許雅璽孟天宇王欣劉炳南
科學技術與工程 2024年8期
關鍵詞:安全事件命名實體

許雅璽, 孟天宇, 王欣, 劉炳南

(1.中國民用航空飛行學院經濟與管理學院, 廣漢 618307; 2.四川騰盾科技有限公司, 成都 610037;3.中國民用航空飛行學計算機學院, 廣漢 618307; 4.中國國際航空股份有限公司, 重慶 401120)

建設民航強國重要標準就是安全水平。隨著經濟發展,航空公司面臨航班規模增大、安全要求提高的雙重壓力。航空不安全事件是指在民用航空器運行階段或者機場活動區域內由于環境惡劣、機械設備故障、人員操作不規范等引起的與航空器有關、造成航空器損傷、人員傷亡或其他影響飛行安全的意外事件,主要包括民用航空器事故征候、事故以及一般事件信息,反映了航空安全水平。

現以從某航司獲取的航空公司安全信息周報為研究對象,這是航空公司周期性的文本記錄文件,記錄每一周在航班運行過程中出現的不安全事件,是文本挖掘和自然語言處理技術的寶貴數據資源。

知識圖譜是人工智能的前沿技術方向,是從非結構化的自然語言文本中提煉知識,實現認知智能的關鍵技術,包含命名實體識別、關系抽取、事件抽取、知識推理等任務。針對航空公司安全信息周報構建知識圖譜,從不安全事件文本中提煉知識,發現運行中存在的安全隱患和問題,可以實現向數據驅動的智慧化、主動式安全管理的轉變。

命名實體識別(named entity recognition, NER)是知識圖譜構建的基礎性任務[1]。其目標是從非結構化的文本中,自動化的提取出所需要的命名實體,并按照預定義的類別對其進行準確的分類[2]。提出一種高精度且泛化性較好的命名實體識別方法,具有重要的意義。

命名實體識別任務通常被建模成一個序列標注任務來處理,通過預測序列中的每個字或每個詞對應的實體類型標簽來實現命名實體識別,目前主流的方法是基于深度學習的方法。Huang等[3]提出基于雙向長短期記憶網絡(bi-directional long short term memory, BiLSTM)和條件隨機場(conditional random field, CRF)的命名實體識別模型,將預訓練后的詞向量送入BiLSTM,不額外使用人工特征提取方法。通過雙向的LSTM網絡學習詞的上下文語義信息,進一步送入CRF層,利用實體標簽之間的相互依賴關系,搜索出最優的標簽序列。王紅等[4]面向民航突發事件數據開展命名實體識別研究,降民航突發事件命名實體類別定義為事發時間、航空公司、飛機型號等13類,提出基于BiLSTM和CRF的民航突發事件命名實體識別方法,為民航突發事件知識圖譜的自動構建提供了數據獲取方法支撐。孫安亮等[5]利用航空事故報道進行人工標注構建命名實體識別數據集,將航空事故命名實體分為飛行類別、型號等8類實體類別,提出基于BiLSTM和CNN的字詞融合嵌入模型,有效提升了航空安全領域命名實體識別任務精度。

由于BiLSTM此類循環神經網絡計算效率較低,傳統卷積神經網絡無法捕獲長距離以來。Strubell等[6]將膨脹卷積應用在命名實體識別任務上,實現了利用卷積網絡建模長距離以來,并行計算也使得模型訓練速度大大提高。

隨著深度學習技術的發展,Devlin等[7]提出基于Transformer[8]模型的大規模預訓練語言模型BERT(bidirectional encoder representations from transformers),通過在大規模無標注語料庫上的多任務預訓練,結合微調的下游訓練方式,在基于領域小規模標注數據的下游任務中取得極好的成績。目前基于BERT預訓練語言模型,衍生了眾多預訓練語言模型,如ERNIE(enhanced representation through knowledge integration,ERNIE)[9]、TinyBERT[10]、ALBERT(a lite BERT,ALBERT)[11]、RoBERTa(robustly optimized BERT pretraining approach,RoBERTa)[12]、MacBERT(MLM as correction BERT,MacBERT)[13]等。褚燕華等[14]基于BERT模型開展對數控機床故障領域的命名實體識別研究,取得了一定的性能提升。焦凱楠等[15]面向反恐領域,制定細粒度反恐實體標簽體系,構建反恐實體語料集,基于BERT模型的變種MacBERT搭建命名實體識別模型,可以準確的識別反恐新聞中的重要實體?;陬A訓練語言模型解決命名實體識別等自然語言處理相關任務成為主流。

針對航空不安全事件知識圖譜構建的基礎性任務,進行航空不安全事件命名實體識別方法的研究。首先,充分分析航空安全信息周報數據特點,定義航空不安全事件命名實體類別,利用開源標注工具標注構建航空不安全事件命名實體識別數據集和領域詞典。其次,針對主流的基于深度神經網絡命名實體識別模型及大規模預訓練語言模型對于實體邊界信息的捕獲尚有不足的問題,基于BERT預訓練語言模型提出融合領域詞典嵌入的航空不安全事件命名實體識別方法,實現領域實體語義信息增強,提高航空不安全事件命名實體識別的準確性。搭建相關模型進行實驗測試,驗證所提出方法的有效性。為航空公司文本數據分析提供了基礎方法,推進基于數據驅動的主動式安全管理的發展。

1 航空不安全事件數據集構建

1.1 航空安全信息周報數據介紹

航空安全信息周報是航空公司以周為周期進行的不安全事件總結報告,包含航班運行過程中不同原因引起的航空不安全事件。本文數據集的構建使用2014—2016年的原始安全信息周報為基礎數據,共150篇DOC文檔。

1.2 航空安全信息周報數據預處理

原始DOC文檔結構上分為主標題、期刊時間標題以及正文分類別的不安全事件內容。

對于航空安全信息周報原始DOC文檔,無法直接進行內容讀取,利用Python相關工具庫對其進行格式轉換,轉換為TXT文檔后,進行進一步的內容讀取及處理。由于航空安全信息周報由不同人在不同時間進行撰寫,文檔存在一定的格式差異性,在對原始文檔內容進行分析后,存在以下問題。

(1)正文事件日期信息不完整,缺少年份信息,在跨年周報中也有此種情況。以及部分僅說明時間,未提及日期的情況,如“21:32”。

(2)由于行業特殊性,部分內容較口語化,如“回京”“左發”“下”等,此種情況會使得計算機進行模型訓練時出現偏差。

(3)由于不同人的撰寫習慣,部分人員撰寫時會附帶自己對近期事件的總結及建議,對安全事件的數據分析來說屬于冗余數據。

針對以上3種問題,制定以下規則進行數據處理。

(1)對于信息缺失的情況,利用正則表達式對其進行字符串匹配,基于文檔時間標題對缺失年份及日期信息進行補全。對于跨年周報,對其月份進行判斷,進而賦予正確的年份時間信息。

(2)對于不規范用語的情況,同樣利用正則表達式進行全文匹配,對不規范處進行更改,如“回京”更正為“返回北京”“下”更正為“下降”。

(3)對于冗余信息,結合字符串匹配,人工進行篩選刪除。

通過以上幾種數據處理手段,對原始數據進行清洗,保證基礎數據質量。對清洗后的數據進行事件提取,對所有文檔中的事件,按類別存儲為json文件。最終整理出共1 600條不安全事件數據。

不安全事件示例:2016年8月6日,重慶分公司機組駕駛B737-800/B-5426飛機執行CA761(揚州—中國臺北)航班,起飛前機組對側窗是否關閉并鎖好檢查不到位,起飛滑跑過程中速度約50 kn時,右側窗打開,機組中斷起飛?;睾髾C務開、關右側窗檢查正常,放行飛機。

1.3 航空不安全事件命名實體定義及標注

通過分析航空不安全事件數據,查閱相關文獻以及咨詢相關領域專家,對航空不安全事件命名實體進行分類定義,共分為日期、機型等10類。利用開源數據標注工具doccano對數據進行命名實體標注,命名實體數據標注如圖1所示。最終得到共29 151個命名實體,各類別實體數量統計如表1所示,總計29 151。至此完成航空不安全事件命名實體識別數據集的構建。

表1 實體數量統計Table 1 Entity Count Statistics

圖1 航空不安全事件命名實體數據標注

對進行命名實體標注后的數據進行整理,將命名實體單獨抽取出,整理為不重復的領域詞典文件,共得到不重復的領域專有名詞4 148個,用于命名實體識別模型中進行領域實體信息嵌入。

2 融合領域詞典嵌入的命名實體識別方法

2.1 BERT預訓練語言模型

BERT預訓練語言模型,其基于Transformer編碼器構建雙向語言模型,相比較于Transformer解碼器,編碼器可以更準確地捕獲預測信息,雙向的語言模型也使得可以充分獲取上下文語義信息,進而適應不同的下游任務。BERT模型結構如圖2所示。

EN為輸入詞向量;Trm為Transformer編碼器;TN為模型輸出詞向量

BERT設置了兩種預訓練任務,分別是掩碼預測任務和下一句預測任務。因此在文本向量嵌入上,BERT使用了3種信息進行文本向量嵌入,分別是基礎的字向量信息表示、基于句子分類的信息嵌入和位置信息嵌入,如圖3所示。

圖3 BERT向量嵌入

針對下一句預測預訓練任務,BERT為輸入句子增加了“[CLS]”標簽和“[SEP]”標簽,同時引入基于句子分類的信息嵌入,用以在進行下一句預測任務時對輸入的句子對進行區分。針對掩碼預測任務,在訓練過程中,選擇隨機掩蓋掉15%的輸入,為了更好地進行掩碼預測任務,在被掩蓋掉的內容中,有10%的詞會被隨機替換為其他詞,10%的詞會保持原樣,剩下80%會被替換為“[MASK]”標記,訓練的目標即是預測被掩蓋掉的詞。

BERT在大規模預料上的多任務預訓練使得其字向量表示具有豐富的語義信息,基于Transformer的雙向語言模型,使得在下游任務微調訓練時可以取得比LSTM等模型更好的效果。

2.2 融合領域詞典嵌入的命名實體識別模型

中文文本組成不同于英文文本,英文文本由26個英文字母組成,可以由空格進行分隔并結合詞根詞綴進行詞語表達。在中文文本中每個字均有其含義,多個字組成不同含義的詞語,且在不同語境下,每個字詞的含義均不同。自然語言處理任務中對于中文文本的處理,通常選用字向量嵌入或詞向量嵌入的方法來建模文本特征。對于命名實體識別任務,字向量嵌入不能很好地識別實體邊界,而詞向量嵌入往往受限于分詞的性能,且對于航空不安全事件此類領域數據來說,通用分詞模型無法滿足需求。為解決這一問題,在大規模預訓練語言模型進行字向量嵌入的基礎上,提出融合航空不安全事件領域詞典進行詞向量信息嵌入的方法來增強模型所獲取的語義特征,利用領域詞典來提高航空不安全事件領域命名實體分詞準確性,進一步使得命名實體模型能學習領域實體邊界信息。

融合領域詞典嵌入BERT的航空不安全事件命名實體識別模型(char and word based BERT, CW-BERT)結構如圖4所示。輸入文本序列通過切字和依照領域詞典切詞后各自送入向量嵌入層進行向量表示,使用BERT預訓練模型獲取航空不安全事件的字向量表示,使用文本向量嵌入層進行航空不安全事件領域詞向量的生成。而后將詞向量表示映射到同字向量相同的維度,逐字進行字詞向量融合,最終得到包含領域實體信息的字向量表示,基于此向量進行進一步的序列標簽分類。

Ci為字向量;Wi為詞向量;Ti為字詞向量融合后的最終向量。

3 實驗及結果分析

3.1 實驗數據集及環境介紹

本次實驗使用上文中以航空安全信息周報為基礎構建的航空不安全事件命名實體識別數據集,共1 600條數據,分為10個類別領域實體,總實體個數29 151個。取全部數據用于實驗,按照8∶2劃分訓練集和驗證集,訓練集和驗證集各類別領域實體個數如表2所示。

表2 訓練集及驗證集實體數量統計Table 2 Statistics of the number of entities in the training set and verification set

本次實驗在百度AI Studio深度學習平臺下進行,硬件環境為Intel(R) Xeon(R) Gold 6148 CPU @ 2.40 GHz CPU、16 G RAM、Nvidia Tesla V100-SXM2-16 GB GPU,軟件環境為paddlepaddle 2.4.2、paddlenlp 2.5.1、Python 3.8。

3.2 模型性能評價指標

命名實體識別任務通常處理為序列標注問題,其本質上為字符級別的多標簽分類問題。本次實驗采用常用的BIO序列標注方法,其中,B為某類實體開始標簽,I為某類實體的后續部分,O為非實體類型。對于所構建的航空不安全事件命名實體識別數據集,共10類實體,即字符級別的21分類問題。

對于所構建的航空不安全事件命名實體識別數據集以及提出的融合領域詞典嵌入的命名實體識別方法的精度驗證,選用文本分類問題常用的精確率(P)、召回率(R)、F分數(F)作為評價指標,各評價指標表達式為

(1)

(2)

(3)

式中:F分數Fb是精確率和召回率的調和平均,可以更好地反應模型的整體性能;b為平衡精確率和召回率在F分數中的權重,一般情況下b的取值為1,也稱為F1分數,即認為精確率和召回率同等重要,選用F1分數來作為模型綜合性能評價指標;TP(true positive)表示預測標簽為正樣本且預測正確;FN(false negative)表示預測標簽為負樣本且預測錯誤;FP(false positive)表示預測標簽為正樣本且預測錯誤;TN(true negative)表示預測標簽為負樣本且預測正確。

對于多標簽文本分類問題,在計算各個評價指標之前,需先計算出各個標簽對應的二分類混淆矩陣,定義如表3所示。

表3 二分類混淆矩陣Table 3 Binary confusion matrix

而后計算各自標簽下對應的精確率、召回率和F分數,需在計算標簽一的混淆矩陣時,將標簽一視為正例,其余標簽視為反例來計算,將多標簽文本分類問題視為多個文本二分類問題。

對于本文多標簽文本分類問題,基于各類別的二分類混淆矩陣計算微平均精確率Pmicro和微平均召回率Rmicro,并基于此來計算微平均F分數Fmicro,用以評估模型整體的性能,Pmicro、Rmicro、Fmicro的計算公式為

(4)

(5)

(6)

式中:n為分類類別總數;i為某個分類。

3.3 實驗數據集及環境介紹

模型訓練時的優化器的選擇,選用AdamW[16]優化器,它是在Adam[17]優化器加L2正則化的基礎上進行改進的算法,解決了Adam優化器函數中L2正則化失效的問題,相比較于傳統的隨機梯度下降等優化算法有許多顯著的優點。

為使得模型驗證結果更加穩定及準確,所有模型測試均在相同隨機數種子下進行。并在訓練過程中加入早停機制,當模型F1分數連續下降4個Epoch或10個Epoch沒有提升時提前結束訓練。

為驗證模型精度,選用主流的BiLSTM、BiGRU(bi-directional gate recurrent unit)以及IDCNN(iterated dilated convolutional neural networks)3個模型結合CRF進行對比實驗。3個模型的相關初始參數如表4所示,批處理大小為64,初始學習率為0.001,向量嵌入維度為512。所提出的融合領域詞典嵌入BERT的命名實體識別模型加載BERT-base模型,向量嵌入維度為768,初始學習率為0.000 1。

表4 對比模型初始參數Table 4 Initial parameters of compare model

最終各個模型驗證結果如表5所示??梢钥闯?融合領域詞典進行嵌入后的模型相比原模型在幾乎不增加模型復雜度的情況下一定程度提高了命名實體識別精度,對于命名實體邊界信息捕獲較弱的模型的提升尤為明顯。IDCNN模型得益于其網絡結構,相比較與循環神經網絡類的模型有著相對較好的效果。相比于傳統神經網絡模型,基于大規模預訓練語言模型進行文本向量表示和特征提取效果更佳,所提出的融合領域詞典嵌入BERT的航空不安全事件命名實體識別模型(CW-BERT)相較于主流的BiLSTM-CRF模型,F1分數提高了約5%。

表5 模型驗證結果Table 5 Validation results of models

所提出的CW-BERT模型在各個實體類別上的驗證結果如表6所示。如日期、機型等相對具有一定規律或復用性較強的實體類別幾乎可以實現完全正確的識別,對于操作、事件、飛機部位此類語義信息較為豐富且存在實體嵌套情況的實體類別也可實現高精度的識別。由于飛機部位此類實體樣本相較于其他實體類別多樣性更強,導致模型在學習時有一定的偏差,對于飛機部位實體識別精度有所欠缺,但也達到了較好的效果。

表6 CW-BERT模型驗證結果Table 6 Validation results of CW-BERT model

4 結論

(1)智慧民航背景下,智能技術賦能航空公司安全管理是大勢所趨。通過開展航空不安全事件命名實體識別方法的研究,為構建航空不安全事件知識圖譜奠定基礎,推動航空公司安全管理向數據驅動的智慧化、主動式安全管理轉型。

(2)目前基于所構建的數據集,提出融合領域詞典嵌入BERT命名實體識別方法,相較于傳統神經網絡模型有著更好的語義學習能力,一定程度提高了對于航空不安全事件領域命名實體邊界信息的獲取,但受限于數據的偏差性,性能提升仍有限。

(3)后續還需進一步擴充數據集,并針對不同參數進行調優,進一步優化模型。以及開展實體關系抽取研究,構建航空不安全事件知識圖譜。

猜你喜歡
安全事件命名實體
命名——助力有機化學的學習
前海自貿區:金融服務實體
有一種男人以“暖”命名
為一條河命名——在白河源
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
食品安全事件的價格沖擊效應
公交車公共安全事件調查
2013卡巴斯基三大安全事件
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合