?

基于Bi-LSTM和TFIDF的工單事件提取

2020-04-14 04:54范華翁利國周艷姜川孫濤
電腦知識與技術 2020年4期
關鍵詞:詞頻

范華 翁利國 周艷 姜川 孫濤

摘要:電網工單數據是電網運行情況以及客戶滿意程度的主要信息來源,近年來,有學者將深度學習的方法應用于工單數據的關鍵信息提取,但是提取出的關鍵詞、詞還不足以完整描述工單反映的具體情況。本文提出了一種事件抽取模型,先通過一定的方式進行文本預處理,確定標簽體系和特征模板,再用Bi-LSTM和CRF相結合的模型進行實體識別和標注,最后通過TFIDF模型提取出事件表達,將該模型用于電網工單數據的事件抽取,用準確率、召回率和F1得分作為模型的評價標準,證明了該模型在工單數據分析中的可用性。

關鍵詞:雙向長短期記憶網絡;條件隨機場;詞頻-逆文件頻率算法;電網工單;事件抽取

中圖分類號:TP183 文獻標識碼:A

文章編號:1009-3044(2020)04-0291-03

收稿日期:2019-10-15

作者簡介:范華(1971—),男,浙江杭州人,浙江中新電力工程建設有限公司,高級工程師,碩士,配網自動化;翁利國(1982—),男,浙江杭州人,國網浙江杭州市蕭山區供電有限公司,高級工程師,碩士,配網自動化。

Event Extraction of Power Customer Service Order Based on BiLSTM-CRF and TFIDF

FAN Hua',WENG Li-guo',ZHOU Yan',JIANG Chuan',SUN Tao'

China)

Abstract:Power Customer Service Order data is the main source of information on grid operation and customer satisfaction.In recent years,some scholars have applied the method of deep learning to the key information extraction of work order data.However,the extract-ed keywords and words are not enough to fully describe the specific situation reflected by the work order.This paper proposes an event extraction model,which firstly performs text preprocessing in a certain way,determines the label system and feature template,and then uses Bi-LSTM and CRF model for entity recognition.Finally,the event expression is extracted by TFIDF model.This paper uses the :model for the event extraction of the power customer service order.This paper chooses the accuracy,recall rate and F1 score as the eval-uation criteria of the model,and prove the availability of the model in the analysis of work order data.

(1.Zhongxin Power Engineering Construction Corporation of Zhejiang,Hangzhou 3 10000,China;2.Power Supply Construction Corporation of Hangzhou Xiaoshan District of Zhejiang State Grid,Hangzhou 310000,China;3.Shanghai University of Electric Power,Shanghai 201300,

Key words:Bi-LSTM;CRF;TFIDF ;Power Customer Service Order;Event Extraction

工單數據包含了各類客戶投訴信息以及供電局員工的解決方式和最后的處理結果。然而,這些數據都是非結構化的文本信息,傳統的分析數據的方式依賴大量的人工閱讀和整理,對工作人員的經驗也較高要求[1]。

事件抽取是信息抽取任務中的一種,旨在從非結構化信息中抽取一個完整事件的事件表達和關鍵要素,并以結構化數據的形式傳遞給用戶。事件抽取的結果包含表示事件類型的觸發詞以及事件要素,觸發詞是可以表示事件的關鍵詞,常常是.動詞或者名詞,事件要素根據事件類型的不同有不同的定義方式[2-3]。本文將事件抽取技術應用于工單數據分析,以客戶反應的問題作為事件表達,并提取出時間、事發地點、工作人員作為事件要素。

本文做出的貢獻有:

1)提出將事件抽取應用到工單數據分析中,不僅降低了對人工的依賴性,也保證了事件表達的完整性;

2)將TFIDF應用于事件觸發詞的提取,擴大了事件類型的范圍,準確描述每個工單所反映的問題。

1 模型構建

本文提出的模型由三個部分組成,工單數據預處理、基于Bi-LSTM和CRF的實體識別以及基于TFIDF的事件表達提取。

工單數據預處理部分將對原始數據進行分詞,對于電氣專有名詞等構建詞典,并且通過word2vec將文本轉化成詞向量。

實體識別部分對預處理過的工單數據進行序列標注,通過雙向長短期記憶網絡捕獲句子級特征,將提取到的特征輸入softmax,層,計算當前的詞對應每個標簽的置信度,最后將置信度分數輸入條件隨機場模塊中進行序列標注,得到每個詞的最大可能的標簽。

事件表達抽取部分,將條件隨機場標注出來的名詞、動詞集中到一起,計算每個詞的詞頻-逆文檔頻率,得分最高的詞即為該工單中最為重要的詞,可以作為事件表達。

從輸入到實體識別部分的模型結構如圖所示:

1.1 工單數據預處理

電網的工單處理經過包含了客戶反應的問題,故障發生的時間和地點,核實情況的單位,處理問題的工作人員,以及處理的大致過程。一般的分詞方式無法準確識別如“頻繁停電”“開關故障”“令克掉落”這種電氣專有詞匯[4],因此針對工單數據,建立了分詞詞典。

采用jieba分詞工具,選用精確分詞模式,導入建立的分詞詞典,以保證分詞結果的準確性。

1.2基于Bi-LSTM和CRF的實體識別

LSTM(Long Short Term Memory),長短期記憶網絡是對序列數據進行操作的一種神經網絡。LSTM加入了一個記憶單元能夠捕捉到長期的依賴信息。同時加入了門控單元,用于控制輸入信息的哪部分將被送人記憶單元,歷史信息的哪部分將被遺忘[5]。采用雙向LSTM,將左右側的輸出拼接起來得到最終的詞向量表示,最終的詞向量將包含該詞的上下文信息。

將分好詞的工單數據輸入word2vec模型訓練成詞向量,并傳人Bi-LSTM中,從而獲得對實體標注有效的特征。但是,Bi-LSTM捕獲到的特征只能表示當前的詞對標簽結果的影響,對于整個序列的標注而言這是不夠的,條件隨機場可以解決這個問題。

條件隨機場(Conditional Random Field,CRF)是一種 條件概率分布模型,由兩組隨機變量組成,是給定一組輸入隨機變量條件下另一組輸出隨機變量的條件概率分布模型"。相比傳統的基于規則的模型,CRF不需要設置規則,也就不需要考慮規則所帶來的局限性;相比同為基于模型的HMM,CRF模型可以捕捉序列元素中相鄰元素的影響,不局限于任何時刻觀察值。對于工單數據這樣的非結構化文本,每一條客戶投訴內都包含了大量的信息,關鍵信息之間也存在絲絲縷縷的關系,因此,CRF是更好的選擇,考慮到精度足夠而訓練復雜度最低,選擇BIO(B-begin,I-inside,O-outside)標簽體系來做序列標注。

Bi-LSTM部分輸出的是一個可以表述當前位置特征的得分,CRF模塊將詞組成序列,考慮標簽之間的依賴關系,找到得分最高的標簽序列。

選擇人民日報2014年的標注語料訓練模型[9],該語料庫對純文本進行了詞語切分和詞性標注,此外,將專有名詞人名標注為nr,地名標注為ns,機構名標注為nt,可以針對其標注提取出想要的關鍵詞。

對于工單數據而言,需要提取出的主要是地名、時間和人名,而許多標注對沒有幫助,所以需要先對語料庫進行預處理:

1)姓名的合并:需要將人名中的姓和名兩部分合并;

2)時間類合并:需要將連續的年、月、日合并到一起;

3)語料中有中括號括起來的詞,該部分表示大粒度分詞,是有代表性的名詞,也需要合并。

選用sklearn_crfsuite工具包中的CRF模塊訓練模型,采用lbfgs算法,懲罰系數設置為0.1,迭代次數設置為100次。選用準確率、召回率和F1分作為評估標準,訓練結果如下:

1.3 基于TFIDF的事件提取

從事件抽取的定義來看,事件的概念相對寬泛,沒有明確的定義,而事件表達可以通過動詞或者名詞來表達,因此,可以通過提取出重要性最高的名詞、動詞集合,從而提取出事件的觸發詞。

TFIDF(term frequency-inverse document frequency,詞頻-逆向文件頻率),是一種用于信息檢索與文本挖掘的常用加權技術,計算詞的詞頻和逆向文件頻率之差,作為其重要性的評價。字詞的重要性與它在文件中出現的次數成正比,與它在語料庫中出現的頻率成反比[7]。因此,如果某個詞在一篇文檔中出現的頻率很高,并且在其他同批文檔中很少出現,則認為該詞或者短語具有很好的類別區分能力。

本文中,每個詞條的詞頻表示的是該詞條在對應的一條工單信息中出現的頻率,詞條的逆向文件頻率的計算則是用工單中信息的總條數除以包含特定詞條的文章數加1,并取對數。通過這樣的設計,可以保證像“頻繁停電”“開關故障”這樣的具有代表性的詞可以被重視起來,又可以保證其不會被“客戶”“用戶”這樣 的詞取代,而且不同的工單情況會被有效區分開來。

2 實驗結果;

將185條 工單數據按專業人員的要求進行了事件要素和事件表達的標注,經過運行后將結果保存,并統計準確率,結果如下:

工單事件抽取的示例如下:

工單數據事件提取的結果可以總結為以下幾點:

1)模型成功地提取出了工單中事件的完整表達,包括事件的類型以及事件發生的時間、地點和相關人物,將非結構化的工單數據轉化成結構化的文本,結果顯示的都是需要了解的關鍵問題,大幅度減少了人工閱讀和整理;

2)采用Bi-LSTM捕獲工單文本的上下文信息,提取出句子級特征,保證了特征提取工作的可靠性;采用CRF進行序列標注,相比HMM的提取效果更加準確;采用TFIDF進行事件類型的提取,根據每條工單處理過程的描述找到最關鍵的詞作為事件表達,提取結果的準確率在75%以上,召回率在69%以上,F1分在0.72以上,說明了模型的可行性。

3 總結

本文通過Bi-LSTM、CRF和TFIDF算法進行工單的事件抽取,將非結構化的工單數據轉化為結構化的信息,提取出了工單處理過程中的時間地點、負責該工單處理的人員和客戶反應的問題,大幅度減少了人工閱讀的工作。實驗表明,模型可以準確提取出大部分工單數據的事件要素和事件類型,對于沒有準確識別出來的要素,可以通過擴展詞典和增加人工標注來提高對事件類型的識別能力和范圍,此外,事件抽取也可以為工單分類、情感分析提供方便。

參考文獻:

[1]鄒云峰,何維民,趙洪瑩,等.文本挖掘技術在電力工單數據分析中的應用[J].現代電子技術,2016,39(17):149-152.

[2]丁麒,莊志畫,劉東丹.基于文本數據挖掘技術的95598業務工單主題分析應用[J].電力需求側管理,2016,18(S1):55-57.

[3]吉久明,,陳錦輝李楠,等.中文事件抽取研究文獻之算法效果分析[J].現代情報,2015,35(12):3-10.

[4]邱奇志,周三三,劉長發,等.基于文體和詞表的突發事件信息抽取研究[J].中文信息學報,2018,32(9):56-65,74.

[5]朱顥東,楊立志,丁溫雪,等.基于主題標簽和CRF的中文微博命名實體識別[J].華中師范大學學報:自然科學版,2018,52(3):316-321.

[6]徐靜,楊小平.基于CRF模型的網絡新聞主題線索發掘研究[J].中文信息學報,2017,31(3):94-100.

[7]孔秋強,賀前華.基于TFIDF與分類樹的工程文本信息分類法[J].計算機應用與軟件,2014,31(6):174-176,191.

[8]李靜月,李培峰,朱巧明.一種改進的TFIDF網頁關鍵詞提取方法[J].計算機應用與軟件,2011,28(5):25-27.

[9]張永偉,顧日國.基于大規模語料庫的情感與修辭互動研究[J].當代修辭學,2018(3):38-54.

[通聯編輯:唐一東]

猜你喜歡
詞頻
語言產生中詞頻效應老化的神經基礎與時間進程*
基于詞頻分析法的社區公園歸屬感營建要素研究
基于詞頻比的改進Jaccard系數文本相似度計算
漢語閱讀中詞頻與注視時間、跳讀的關系
25年來中國修辭研究的關鍵詞詞頻統計*——基于國家社科與教育部社科課題立項數據
詞頻,一部隱秘的歷史
云存儲中支持詞頻和用戶喜好的密文模糊檢索
儒家經典詞頻及共現分析
以關鍵詞詞頻法透視《大學圖書館學報》學術研究特色
漢語音節累積詞頻對同音字聽覺詞匯表征的激活作用*
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合