?

基于Apriori算法的煤礦事故隱患短文本關聯分析

2024-02-23 12:21
山西焦煤科技 2024年1期
關鍵詞:項集置信度分詞

趙 科

(長治學院, 山西 長治 046000)

為準確把握安全生產的特點和規律,2016年,國務院安委會出臺印發了《標本兼治遏制重特大事故工作指南》,要求煤礦在內企業構建安全風險分級管控和隱患排查治理雙重預防機制,提升安全生產整體預控能力,從而有效遏制事故發生。其中,建立完善隱患排查治理體系,要“明確和細化隱患排查的事項、內容”,還要達到“實現隱患排查治理的閉環管理”的目標。自雙重預防機制實施以來,事故隱患排查治理的信息化管理系統幾乎成為煤礦企業的“標配”,管理平臺在長期的使用中積累了大量的煤礦事故隱患數據。由于對隱患數據缺乏有效的研究手段,難以將隱患數據充分利用并形成良性反饋機制,導致煤礦企業長期陷入“數據爆炸但知識匱乏”的尷尬局面,隱患數據無法為隱患排查治理的閉環管理提供相關決策支持,煤礦生產安全依舊存在“認識不深刻、管理不周到”的突出問題[1].

如何從大量的不斷增長的煤礦事故隱患數據中有效挖掘事故隱患背后隱藏的規律、規則和特點,提升對事故隱患的認識并反饋到煤礦事故隱患排查治理閉環管理成為當下煤礦事故隱患領域的一個研究熱點。有部分學者圍繞煤礦事故隱患數據進行了研究。李仕瓊[2]利用Fp-Crowth 算法對煤礦安全隱患的屬性數據進行規律總結;張大偉[3]基于OLAM方法通過微軟SSIS對煤礦隱患數據進行挖掘;張長魯[4]運用六何分析法實現煤礦文本型隱患數據的知識顯性化;譚章祿等[5-6]基于LDA挖掘煤礦安全隱患記錄數據的隱患主題,構建煤礦安全隱患語義網絡后進行聚類分析;毛瑞軍等[7]通過采用時間序列分析模型挖掘煤礦歷史隱患數據;高曉旭等[8]借助算法挖掘煤礦隱患數據多維度間的關聯關系;彭德軍等[9]基于卷積神經網絡有效提取煤礦隱患信息關鍵語義;田水承等[10]對煤礦頂板事故調查報告進行網絡中心性分析和核心邊緣結構分析。

上述研究為煤礦事故隱患數據的挖掘利用提供了參考思路,但是鮮有對煤礦事故隱患數據特征屬性的針對性研究。本文利用關聯規則數據挖掘方法,充分考慮煤礦事故隱患數據特性,對隱患文本數據進行研究分析,為發掘事故隱患信息的規律聯系和揭示煤礦事故隱患整體態勢提供了一種新的思路和手段,以期為煤礦事故隱患排查治理閉環管理提供決策信息支持。

1 數據來源及預處理

1.1 數據來源

以宏源集團富家凹煤礦2017—2018年共3958條事故隱患數據作為研究對象,根據雙重預防機制要求,每條事故隱患數據中包含了隱患描述、責任單位、隱患位置、整改措施、資金、時限等字段內容。在對煤礦事故隱患數據進行關聯規則挖掘時,針對隱患描述、責任單位、隱患位置3個字段信息進行研究分析。部分隱患數據見表1.

表1 煤礦事故隱患部分數據

煤礦事故隱患數據采用自然語言記錄,由漢字、數字、英文字母及標點符號組成,是中文文本數據。從表1可以看出,煤礦事故隱患文本數據記錄較口語化、專業詞匯多,同時,每條隱患文本數據中隱患多維信息常常是幾個詞語的簡單組合,這是典型的中文“短文本”數據[11],以上煤礦事故隱患文本數據的特點屬性都為其研究利用增加了難度。

1.2 數據預處理

在實際工作中,煤礦事故隱患短文本數據由現場工作人員手工輸入,內容采用中文常用習慣表達,是非結構化的中文文本信息。在煤礦事故隱患短文本關聯規則挖掘前,需要進行文本預處理操作,將非結構化數據轉化為計算機可以識別的結構化數據。文本預處理通常包括分詞、去停用詞、文本表示等內容[12].

1.2.1 分詞

中文分詞是將連續的中文句式按照一定的規范切分后,重新組合成詞的序列的過程。煤礦事故隱患短文本數據是以漢字為主的連貫表達,不像英文句式中單詞用空格區分,所以需要將隱患中文句子準確分隔成一個個詞。

R是一種軟件語言和操作環境,常用于數據挖掘和可視化研究領域。jiebaR是R語言在文本數據挖掘中最常使用的中文分詞工具包。由于分詞使用場景不同,因此,在實際應用中的分詞效果也取決于分詞詞庫的好壞。通過總結搜狗細胞詞庫中的公共詞庫和手動添加專業詞匯的方式建立了煤礦事故隱患用戶詞典,見圖1,豐富了中文分詞詞庫,提高了中文詞匯拆分的準確性,保障了后續研究的順利進行。例如隱患短文本數據為“1236軌道巷皮帶有兩處接頭不合格”,分詞后得到的結果是:“1236軌道巷”“皮帶”“有”“兩”“處”“接頭”“不合格”。此處的“1236軌道巷”實現準確分詞,正是在分詞詞庫中手動添加專業詞匯的結果。

圖1 煤礦事故隱患用戶詞典

1.2.2 去停用詞

停用詞是指在文本中無實際意義,去掉后不影響主旨的詞、字符。常見的中文停用詞可以分為兩類,一是表達中常用,在語句中發揮結構功能,主要包括數詞、量詞、介詞、連詞、助詞、意義有限的動詞等,如“的”“與”等詞;二是標點符號和無意義的數[13].

分詞之后,刪除停用詞的操作稱之為去停用詞。以隱患短文本數據 “1236軌道巷皮帶有兩處接頭不合格”為例,經分詞和去停用詞的操作后,得到結果為:“1236軌道巷”“皮帶”“接頭”“不合格”,去停用詞刪去了“有”“兩”“處”3個字符,均屬于中文停用詞中的第一類情形。

1.2.3 文本表示

文本表示是采用模型將非結構化數據轉化為計算機可以識別和處理的結構化數據,目前通常采用向量空間模型。

向量空間模型是由Salton等人提出,現被廣泛應用于文本數據挖掘中的文本表示[14]. 在煤礦事故隱患短文本數據研究中,將每條隱患數據看作一個文檔,隱患短文本經過分詞和去停用詞后的結果成為隱患文檔的特征項,每個文檔均由特征項構成,隱患文檔空間向量模型即可表示為:

Document=D(t1,t2,…,tn)

(1)

式中:tk是特征項,其中1≤k≤n.

2 關聯規則及算法

2.1 關聯規則

關聯規則起源于美國沃爾瑪超市購物籃分析,超市管理者通過分析顧客購買商品習慣和偏好,在此基礎上實施更加精準的產品優化、推薦銷售等營銷策略,提高超市的產品銷量和經濟效益[15]. 關聯規則作為數據挖掘的關鍵技術之一,其目標就是在大量數據集中尋找對象集合之間存在的關聯性和因果性,為管理者提供參考建議。

在關聯規則中,一個事件的發生,很可能會引起另一個事件的發生,將煤礦事故隱患數據文本預處理后的結果看作不同事件,例如“1236軌道巷”“皮帶”“接頭”“不合格”,那么事件“皮帶”的出現,就有可能推測事件“接頭”出現。將關聯規則挖掘用于煤礦事故隱患短文本數據研究,能夠快速精準地從數量龐大的煤礦事故隱患數據中得到煤礦事故隱患問題的概況和細節,為煤礦經營者針對事故隱患排查治理工作提供參考。

關聯規則的度量方式包括支持度、置信度和提升度[16]. 在關聯規則挖掘中將每條煤礦事故隱患數據看作一個事務,事務里記錄了事故隱患的多維信息,全部的事務組成了事務集D.

D={d1,d2,…,di,…,dn}

(2)

式中:di是煤礦事故隱患數據,其中1≤i≤n.

將每條隱患短文本預處理后的特征項看作事務的屬性,稱之為項,總項集是所有項的集合。

I={i1,i2,…,ij,…,im}

(3)

式中:ij是項,其中1≤j≤m.

隱患短文本預處理后的項或項集X和Y屬于總項集I,且兩者無交集,蘊含式X?Y表示X和Y同時出現的規則。

在事務集D中,X和Y在總項集I出現的概率稱為支持度。

(4)

式中:X和Y表示沒有交集的項或項集。

當X出現時,若能以一定的概率推測出Y,則在事務集D中同時含有X和Y的事務總量除以只有X的事務總量的商為置信度。

(5)

關聯規則中支持度和置信度的值同時高于對應分析期望值稱為強關聯,否則為弱關聯。

在X條件下Y發生概率除以Y單獨發生的概率的商稱為提升度。

(6)

提升度大于1則為有效強關聯規則,具有分析價值;提升度等于1則說明X和Y相互獨立;提升度小于1,關聯規則無效。

2.2 Apriori算法

Apriori算法由Agrawal等人提出,是基于頻繁項集和強關聯規則搜索過程的遞歸算法[17]. 基礎思想是在設定支持度的前提下,不斷尋找事物集中的頻繁項集,從頻繁1項集一直搜索到頻繁(k+1)項集不存在,結果中最高為頻繁k項集,然后再根據置信度過濾掉以上結果中不符合的弱關聯規則。目前主要運用在市場推銷、互聯網個性推薦等領域。

將Apriori算法思想轉化為實現計算過程,見圖2流程圖。在算法開始之前設置最小支持度和最小置信度,然后從事物集中開始尋找候選項集,從最小候選1項集開始根據最小支持度判斷是否為頻繁1項集,以此類推,直到得出最大頻繁k項集。在每生成一個頻繁項集后,對置信度進行計算,值大于最小置信度的輸出為強關聯規則,否則將非強關聯規則舍棄。

圖2 Apriori算法流程

3 試驗及結果分析

3.1 關聯規則挖掘

使用R語言環境對“隱患描述”短文本數據進行Apriori算法關聯規則挖掘。在算法運行前,支持度和置信度參數需要根據實驗數據進行調整,由于3958條事故隱患短文本分詞之后數量是以萬為單位,因此支持度和置信度參數設置不能過大。經過反復試驗,當支持度的值為0.005,置信度的值為0.5,Apriori算法挖掘結果良好。將得到的關聯規則部分輸出,見表2.

表2 煤礦事故隱患部分關聯規則

結合關聯規則原理,可以對該試驗輸出結果進行解讀:

1) 支持度分析。由定義可知,支持度這項參數用來度量沒有交集的兩項事務在總事務集中出現的概率。在試驗的3958條煤礦事故隱患數據中,出現頻率較高的隱患內容有積水影響行人、支架漏液、淤泥多、風筒脫節、皮帶跑偏等,分別出現了57次、44次、32次、29次、29次。

2) 置信度分析。置信度越高,表示前項事務推斷后項事務出現的概率越大。表中第一條規則,當隱患內容中出現“下浮煤”時,這條隱患一定是與“皮帶”有關的;在{液壓管}?{漏液}這條規則中,當隱患內容中出現“液壓管”時,該隱患有76.67%的可能是在描述液壓管漏液。

在試驗中,將置信度參數設置為0.5,從結果看來,甚至出現了100%,這是因為在記錄隱患內容時的表達描述方式簡易,體現在置信度中就是事務間聯系密切度高。

3) 提升度分析。提升度大于1表示強關聯規則。在挖掘結果中,{碼放}?{材料}、{破碎}?{頂板}、{液壓管}?{漏液}這3條規則的提升度明顯較高,說明“材料”“頂板”“漏液”等特征項單獨出現的概率較小,而常常分別在隱患內容中提到“碼放”“破碎”“液壓管”時出現。

3.2 關聯規則可視化

R語言是一個統計計算和制圖的優秀工具,善于將數據挖掘結果進行可視化呈現。將煤礦事故隱患數據基于Apriori算法進行關聯規則挖掘后通過圖像的方式能夠全面直觀展示隱患信息關聯規則細節,使煤礦經營管理者迅速掌握事故隱患信息中存在的薄弱環節和工作短板,明確煤礦現場隱患排查治理的工作重心。

圖3是使用R語言對“隱患描述”短文本數據進行Apriori算法關聯規則挖掘可視化輸出結果。圖中支持度越大,圓圈的面積越大;提升度越大,圓圈的顏色越深。

圖3 隱患描述關聯規則

將關聯規則輸出為可視化圖像后能夠看出,“隱患描述”內容信息成簇狀聚集呈現,簇中心有支架、皮帶、風筒、積水、排水管路、迎頭、頂板等事務,圍繞簇中心出現的事務作為特征詞,對隱患內容的形式作出全面說明。以支架隱患為例,圖2以“支架”為簇中心展示了支架隱患高頻出現的具體形式,包括“支架錯茬”“支架漏液”“支架十字頭壞”“支架咬架”“支架液壓管接頭”等。

在對“隱患描述”關聯規則可視化圖像分析的基礎上,增加了“隱患位置”和“責任單位”進行關聯規則分析,并將結果可視化輸出,分別得到圖4和圖5.

圖4 隱患描述和隱患位置關聯規則

圖5 隱患信息關聯規則

由圖4可以看出,在關聯規則挖掘中增加了“隱患位置”后,隱患發生形式與隱患位置之間存在明確的關聯性,也就是說,不同位置的隱患有著各自的特征。1234工作面、1238工作面的支架隱患比較突出,形式多樣,包括支架錯茬、十字頭壞、支架壓力不足、咬架、接頂不實、支架漏液等。在1238軌道巷、三采區軌道巷、三采區皮帶巷中,隱患問題主要集中在風筒、皮帶、幫錨、迎頭支護等方面。

圖5隱患信息關聯規則挖掘中包含了隱患描述、隱患位置和責任單位3項信息,輸出圖片暴露出相關責任單位在生產工作中高頻常見的容易造成的事故隱患。綜采隊的工作隱患集中在工作面,有支架操作管理隱患和工作面積水隱患;掘一隊集中在軌道巷,常見隱患涉及到風筒、幫錨、鋼棚支護;掘二隊問題暴露在皮帶巷和聯巷,隱患涉及到材料碼放、皮帶、鋼棚支護等方面。煤礦經營管理者可以根據這些信息對相關責任單位和隊組加強工作技能培訓,提高工作生產水平,嚴格規范施工要求,從而在源頭上降低隱患發生的幾率。

4 結 論

Apriori算法模型研究對象與煤礦事故隱患短文本數據特征高度契合,為煤礦事故隱患短文本分析利用提供了理論支持和實踐途徑。結果表明,Apriori算法揭示了蘊藏在煤礦隱患數據中的關聯規則,通過可視化圖像直觀展示出煤礦事故隱患中存在的薄弱環節和短板,對煤礦現場的隱患管理工作有重要的啟示和指導意義。

猜你喜歡
項集置信度分詞
硼鋁復合材料硼含量置信度臨界安全分析研究
分詞在英語教學中的妙用
結巴分詞在詞云中的應用
結巴分詞在詞云中的應用
正負關聯規則兩級置信度閾值設置方法
置信度條件下軸承壽命的可靠度分析
關聯規則中經典的Apriori算法研究
一種頻繁核心項集的快速挖掘算法
多假設用于同一結論時綜合置信度計算的新方法?
論英語不定式和-ing分詞的語義傳承
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合