?

水利工程安全隱患文本挖掘與智能管理技術研究

2024-01-10 06:56楊濤趙嵩
企業科技與發展 2023年12期
關鍵詞:決策樹排查隱患

楊濤,趙嵩

(1.深圳市科榮軟件股份有限公司,廣東深圳 518001;2.云南大學信息學院,云南昆明 650504)

0 引言

隨著安全信息化工作的推進,水利工程建設積累了大量繁雜、多源異構的隱患文本數據,但是現階段的水利工程施工安全隱患分析主要依靠安全管理人員的個人經驗,效率較低且難以發現隱患數據的內部聯系。自然語言處理技術的發展,實現水利工程施工安全隱患文本的智能分類與管理成為可能。

建筑業施工的安全隱患分類尚處于起步階段,目前業界對安全隱患的分類方式主要有兩種:一是基于人為預設框架的隱患分類,如HALLOWELL等[1]整合已有出版物對安全隱患的分類,總結得到接觸有害物質、過度疲勞、重復運動等10 類安全隱患;二是基于數據聚類分析的隱患分類,如ZHAO 等[2]對地鐵隧道建設工程的243個安全事件進行結構分析,并采用聚類分析方法從事件組中挖掘并確定對事故發生影響最大的因素。雖然文本分類模型可以實現隱患文本的高效、精確分類,但是無法從文本中獲取更詳細的隱患信息[3]。針對分類后的安全隱患文本,詞云圖與共現網絡分析是文本挖掘中的常用方法,能夠發現文本的內部特征及外部特征,具有較高的實用性與可靠性。潘杏等[4]利用詞云圖從時間維度對地鐵施工的安全隱患進行可視化分析,挖掘地鐵安全隱患,排查要點;薛楠楠等[5]利用共現網絡,識別建筑工人不安全行為及其影響因素之間的關系。

本文利用隨機森林模型進行隱患文本的智能分類,并結合TF-IDF 算法獲得更深層次的語義信息,提升文本分類的精確度。本文所提方法可以為水利工程施工安全隱患問題的文本智能分類及隱患排查線索的挖掘提供參考。

1 研究內容與方法

1.1 研究內容

安全模塊對智慧監管平臺每個標段下的安全隱患描述進行深入分析。首先,對安全隱患問題描述文本數據進行預處理。其次,采用TF-IDF 特征提取方法將隱患文本描述轉換為特征向量,采用隨機森林(Random Forest,RF)模型將安全隱患預測為10 個類別,分別是高處墜落、機械傷害、物體打擊、觸電、火災爆炸、起重傷害、文明施工、機電信息、安保設施、建筑物破損。再次,依據分類后的結果,利用詞云和詞頻統計方法展現安全隱患概況,挖掘隱患核心詞;采用序列相似度匹配算法(Sequence Matcher,SM)從原始安全隱患數據里面匹配出包含核心詞的隱患數據集,采用隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型從數據集中聚類分析出每個核心詞的代表性數據,作為每個類別下的隱患排查線索。最后,通過詞云圖可視化隱患的安全管理要點及隱患數據的內部聯系,挖掘安全隱患文本中隱含的重要信息和內在規律,用于輔助水利工程安全管理實踐。本研究為隱患文本智能知識挖掘提供新的思路,也為水利工程施工安全隱患排查及預防提供新的指導手段。

1.2 研究方法

1.2.1 文本預處理

為獲得有效、可用的施工安全隱患數據,本文結合工程施工安全隱患判定標準《工程管理人員“三管三必須”檢查手冊》等相關規范及實際工程施工經驗,對施工安全隱患數據進行處理。首先,由于數據來源于人工記錄,所以對工程數據中含有主觀推斷的信息、缺失值、異常值等數據均采用手動方式進行剔除,以獲得有效、可用的安全隱患數據。其次,針對水利工程施工安全領域的特點,制作該領域的安全隱患字典輔助分詞,包括手動添加專有名詞到自定義詞典中,例如“高處墜落”“電氣安全”“腳手架”等,以豐富和完善分詞效果,有效避免術語被錯誤地分開或合并,提高數據處理和分析的精確度。再次,停用詞表采用哈爾濱工業大學停用詞表,在此基礎上將不規范的關鍵詞、無意義的詞添加到停用詞表中,用于去除隱患問題描述文本中的停用詞(例如空格、標點符號)等影響文本處理與分析的無效信息。最后,采用jieba 分詞技術對隱患問題描述文本進行分詞操作,操作主要包含如下4個步驟:字典匹配、詞性標注、建立有向無環圖和最短路徑分詞。

1.2.2 基于隨機森林模型的安全隱患文本分類

1.2.2.1 TF-IDF文本向量化

為將安全隱患文本數據轉換為機器學習模型所能處理的數值型數據,采用TF-IDF 實現文本數據的特征提取和向量化。TF-IDF 是一種常用的文本特征提取方法[6],用于評估一個詞對一個文檔集合的重要程度。TF-IDF 在對文本進行特征提取的過程中,首先,將文本數據進行分詞處理,將文本分割為單個的詞語或單詞序列。其次,TF-IDF 會構建一個詞匯表,其中包含所有在文本數據中出現的不重復的詞語,每個詞語將被賦予一個唯一的索引。再次,計算TF值,TF 表示安全隱患詞語在安全隱患文檔中出現的頻率。最后,將每個文檔中每個詞語的TF-IDF 值按照其索引位置組成一個向量,將文本數據轉換為向量表示,向量的維度等于詞匯表的大小。

1.2.2.2 隨機森林分類模型

為實現安全隱患文本的自動預測分類,采用隨機森林分類模型對安全隱患數據進行分類。隨機森林是一種基于決策樹模型[7],通過袋裝采樣技術(Bagging)在模型訓練過程中引入隨機選擇屬性的算法,具備理論深度較低、計算量輕便等特點。

(1)決策樹。決策樹作為基本的樹模型已被機器學習領域諸多模型使用,它的工作原理是從根節點出發后,在每一個分支節點找到最佳的分裂屬性后進行分裂。隨著分裂節點的不斷增多,分裂節點不斷逼近停止條件,直到滿足停止條件時,分裂節點停止分裂,構成決策樹。決策樹的優點在于其具備良好的可解釋性,決策樹中的每一個根節點都代表對一項特征的測試,從根節點延伸出去的每一條路徑都代表一條規則,路徑最終到達的葉節點則代表一個測試結果。也正因如此,決策樹良好的可解釋性體現在使用者可以通過逆向追溯每一條根節點和葉節點之間的路徑得到樣本的預測過程。決策樹的缺點在于作為單個的預測模型,其泛化性較差,對數據的質量要求極高,如果數據存在少量噪聲就會嚴重影響決策樹的預測結果。因此,為彌補上述缺陷,需要將多個決策樹模型進行集成,形成集成學習算法。

(2)裝袋采樣。裝袋采樣技術的訓練過程可總結為從容量為S的訓練集樣本中采用有放回的方式隨機拿出N個樣本,這N個樣本便組成新的訓練集樣本。上述采樣方式重復M次,組成M個獨立且具有相同權重的袋裝采樣樣本集合。隨機森林算法的集成模型的思想源于裝袋采樣技術選取的多個訓練集,其中每一個由袋裝采樣算法生成的樣本集合之間已經通過重采樣進行樣本重構,而非簡單的復制粘貼。正因如此,樣本集合之間的差異是源于隨機森林算法內的諸多決策樹模型彼此之間存在隨機性。因此,袋裝采樣技術可以通過保證集成模型中每個子模型的預測精度且維持子模型之間的低相關性,以提高隨機森林算法的準確率。

(3)隨機森林。隨機森林作為一種集成模型,是由諸多決策樹模型組合而成,其算法流程如圖1所示。

圖1 隨機森林算法流程

1.2.2.3 文本分類模型評估指標

為評估隨機森林模型文本分類的有效性,采用精確率(P)、召回率(R)、F1 值評估模型的性能,各評價指標的計算方法如下:

其中:精確率P表示模型預測為正例的樣本中預測結果是正確的比例;召回率R表示被預測正確的正例樣本與總正例樣本的比率;F1值是精確率與召回率的調和平均指標,可精確反映出模型多方面的效果。

1.2.3 基于LDA的安全隱患排查線索

1.2.3.1 隱患詞云分析

詞云圖是一種將詞語按照出現的頻率進行排列的可視化方法,可以直觀地展示高頻關鍵詞的分布情況。在安全管理的過程中,為更清晰、全面地了解每個安全隱患類型下的具體隱患內容,可以對每個安全隱患類型下的隱患數據進行詞頻統計,并繪制詞云圖,從而更好地反映隱患的總體特征。

1.2.3.2 序列相似度匹配算法

為根據隱患核心詞得到更加清晰的安全隱患致因,采用SM 算法[8]將上述利用詞頻統計方法挖掘出的隱患核心詞去原始隱患描述中匹配出眾多的包含該核心詞的隱患原始描述數據。SM 算法通過計算兩個序列之間的最長公共子序列(Longest Common Subsequence,LCS)的長度,計算兩個序列的相似度。LCS是指兩個序列中最長的一個相同的子序列,它的長度可以表示兩個序列的相似度。假設兩個序列分別為X和Y,LCS(X,Y)的長度為len(LCS(X,Y)),那么它們的相似度計算如下:

1.2.3.3 隱含狄利克雷分布

采用SM 算法從原始安全隱患描述數據中匹配出包含安全隱患核心詞的原始隱患描述數據較多,為從眾多數據中選擇出一條具有代表性的安全隱患原始描述數據作為該核心詞的隱患排查線索,首先,對于每個包含核心詞的數據集,使用LDA 主題模型進行聚類分析,將其聚成一個類別。其次,在每個數據集中計算主題關鍵詞的出現次數,并選擇出現次數最多的前5 個主題關鍵詞作為該數據集的代表性關鍵詞。再次,計算每個數據集中核心詞和代表性關鍵詞的出現次數。最后,從每個數據集中選擇出現核心詞和代表性關鍵詞最多的一條數據作為代表性數據。通過這一流程,選擇出一條最具有代表性的安全隱患原始描述數據,為核心詞提供有價值的隱患排查線索。

LDA 主題模型結構如圖2所示。從圖2 中可以看到,以白色圈表示隱藏變量,以灰色圈表示觀測變量,以及代表變量重復性質的矩形形狀,這一結構呈現了模型內在的復雜關聯,通過隱藏變量和觀測變量之間的交互,揭示潛在的主題結構。這種設計提供對文本或其他數據集的更深層次理解,并為進一步分析和建模提供了基礎。

圖2 LDA主題模型結構

2 關鍵技術問題和技術路線

2.1 技術問題

(1)水利工程建設過程中積累的安全隱患文本數據來源于現場人工安全檢查記錄,存在語言含糊、描述不規范等問題,因此如何將這些繁雜、多源異構的隱患文本數據去除非中文字符、進行分詞和去除停用詞,是確保后續特征提取和模型訓練準確性和可靠性的技術難點。

(2)安全隱患文本數據存在規模大、數據稀疏的問題,如何將安全隱患描述文本數據轉換為機器學習模型能處理的數值型數據,而且數據轉換在捕捉安全隱患關鍵詞的同時,保留隱患描述的信息豐富性,確保最后機器學習模型的預測準確率也是技術難點。

(3)雖然機器學習模型可以實現隱患文本的高效、精確分類,但是無法從文本中獲取更詳細的隱患知識。因此,針對分類后的安全隱患文本,需要進一步分析各類安全隱患文本的管理要點及隱患數據的內部聯系。

(4)安全隱患核心詞可以反映各類安全隱患問題的管理要點,針對施工規模較大且安全隱患高發的標段,僅根據安全隱患核心詞排查安全隱患問題,由于包含該核心詞的問題數量較多,涉及的施工場地較廣,要排查的范圍較大,因此如何根據安全隱患核心詞,從原始的隱患描述數據中找出一條具有代表性的安全隱患問題作為隱患排查線索,明確隱患的致因,進一步縮小隱患排查的范圍成為技術難點。

2.2 技術路線

(1)數據預處理:首先,使用正則表達式去除非中文字符,保留安全隱患描述中的中文文本。其次,制作針對水利工程施工安全隱患的詞典。最后,利用jieba 分詞庫對安全隱患文本進行分詞,并根據預定義的停用詞表去除無意義的常用詞匯。

(2)文本特征提取及向量化:采用TfidfVectorizer(文本特征提?。︻A處理后的隱患文本描述進行特征提取,選取適當的特征數量轉換為機器學習模型可識別的特征向量。

(3)文本分類模型訓練:采用機器學習模型里的隨機森林分類器對特征向量進行訓練,并實現安全隱患自動預測分類,分為10個類別。

(4)隱患數據挖掘:利用詞云和詞頻統計方法展現安全隱患概況,挖掘隱患核心詞。通過可視化隱患的安全管理要點及隱患數據的內部聯系,進而挖掘安全隱患文本中隱含的重要信息和內在規律,用于輔助水利工程安全管理實踐。

(5)隱患排查線索挖掘:首先,根據每一個核心詞,依次利用SM 算法從原始隱患數據中匹配出包含核心詞的隱患數據集。其次,采用隱含狄利克雷分布(LDA)模型依次對包含核心詞的數據集進行聚類分析,主題類別設置為1。最后,結合隱患核心詞和該數據集的主題關鍵詞從數據集中匹配出每個隱患核心詞的隱患排查線索。

3 結果與分析

3.1 基于RF的文本分類模型效果

以珠江三角洲水資源配置工程信息化平臺智慧監管模塊下的安全隱患臺賬信息做為數據源。本文從安全管理系統中獲取到2019—2023年施工期間的80 953 條安全隱患原始數據作為數據源。每條安全隱患數據主要包含標段、隱患描述、隱患類型、整改措施和檢查日期等字段,其中標段、隱患描述、隱患類型和整改措施均為非結構化的文本數據。本文主要借助隱患描述信息進行安全隱患分類及隱患信息挖掘,每條隱患記錄均有手動標記的隱患種類標簽。

本文將數據集按照7∶3的比例劃分為訓練集、測試集。對所有數據進行打亂處理。表1 為隱患數據集中的樣本實例,以消防安全、用電作業、文明施工3個類別描述樣本為例。

表1 隱患分類數據集示例

本文所用的隨機森林分類模型使用的編程語言為Python3.7,利用Pytorch 學習框架下的sklearn 庫。模型超參數選擇的結果為n_estimators=12,max_depth=4,criterion="gini"。模型各項指標見表2。

表2 模型指標

3.2 隱患詞云圖分析

為幫助安全管理人員快速捕捉不同種類施工隱患的關鍵信息,借助詞云圖更加直觀地為安全管理人員展示不同隱患種類及其主要隱患表征。在隱患描述內容中加入隱患部位信息,并將隱患部位、常見隱患詞匯等構建用戶詞典加入分詞器中,利用Word Cloud 工具包為不同隱患類別選擇關鍵短語,繪制隱患特征詞云圖。本文在每次繪制隱患詞云圖時,選取前20個關鍵短語剔除對隱患知識挖掘無顯著影響的無意義詞語,在此基礎上繪制隱患詞云圖。圖3 中的詞語字體越大,代表該詞語出現的頻率越高,與其相關的隱患越容易發生。例如,“安全帽”“乙炔”“電纜”等字體較大,則需對相關的安全隱患進行重點關注。

圖3 詞云圖

3.3 基于SM-LDA模型的安全隱患排查線索分析

根據上述詞云圖統計分析出的高頻隱患核心詞有氧氣瓶、安全帽、乙炔、護欄、材料、電纜、龍門吊、盾構、積水、標識牌。

以高頻詞“安全帽”為例,首先利用SM 算法從原始隱患數據中匹配出包含核心詞的隱患數據集(見表3)。其次,利用LDA 主題模型對表3 中包含核心詞“安全帽”的數據進行聚類分析,將類別設定為1,在該數據集中計算主題關鍵詞出現的次數,得到該數據集的主題關鍵詞列表;從主題關鍵詞列表中選擇出現次數最多的前5 個主題關鍵詞作為該數據集的代表性關鍵詞,即“安全帽”“佩戴”“人員”“現場”“作業”。最后,從表3的數據集中選擇出一條出現代表性關鍵詞最多的安全隱患描述作為“安全帽”這個詞的具體隱患排查線索,即“現場作業人員未正確佩戴安全帽”,該描述包含代表性關鍵詞最多。同理,根據高頻隱患核心詞挖掘分析得到更具針對性的隱患排查線索(見表4)。

表3 包含“安全帽”的隱患描述

表4 安全隱患排查線索表

4 結語

本文基于RF 模型對珠江三角洲水資源配置工程信息化平臺的安全隱患臺賬數據進行文本分類和信息挖掘。通過隱患描述信息,模型展現了良好的分類效果。隨后,通過詞云圖,直觀地展示不同隱患種類的關鍵信息。同時,基于SM 算法和LDA 模型的排查線索分析為安全管理人員提供針對性的隱患排查指引。綜合而言,本文的研究結果可為水利工程施工安全管理人員提供參考和指導,能為提升水利工程施工現場的安全性和效率提供幫助。本文側重于對安全隱患數據的分析,缺少對安全隱患在時間序列方面的研究,后續將進一步結合安全隱患發生的時間因素進行回歸分析。

猜你喜歡
決策樹排查隱患
隱患隨手拍
隱患隨手拍
互聯網安全隱患知多少?
隱患隨手拍
高層建筑消防安全排查情況及處理對策
配網二次回路故障的排查分析
給家中來個危險排查吧
一種針對不均衡數據集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應用
如何排查并改錯
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合