?

軍用航空器事故關鍵質量特性的數據挖掘模型

2024-02-22 07:45曹俊彬李俊杰王正武劉萬鎖
計算機工程與設計 2024年2期
關鍵詞:墜機數據挖掘關鍵

曹俊彬,邵 航,姜 坤,李俊杰,王正武,劉萬鎖

(空軍工程大學 航空機務士官學校,河南 信陽 464000)

0 引 言

習主席指出,當今世界正經歷百年未有之大變局[1]??v觀全球,世界強國必是航空強國,航空強國必有航空領域國家戰略科技力量[2]。在大數據與人工智能時代,航空科技領域成為了大數據與人工智能技術落地應用的重要行業領域[3]。同時,數據挖掘與人工智能技術也成為了賦能航空科技發展,保障航空質量安全水平的有力技術支撐手段。

航空質量控制,特別是軍用航空質量控制,強調通過對機務人員上崗資質、航空裝備完好狀態、航空裝備使用壽限等使用狀態層面進行全面質量管理,來全面提升航空質量水平,保障航空質量安全。

質量缺陷與安全事故是同株異面的雙生花。航空質量控制涉及與航空安全相關的人、機、料、管、環的方方面面。ISO9001標準指出:“質量是一組固有特性滿足要求的程度”[4],質量特性則是滿足某種要求的質量水準所表現出的某些固有特性[5]。而關鍵質量特性則是“若超過規定的特性值要求,會直接影響到產品安全性、產品整體功能或者顧客對產品滿意程度的質量特性[5]”。

探尋軍用航空器事故包含的關鍵質量特性,就是通過對各種途徑采集到的關于航空器質量安全保障的屬性值開展數據分析,將所采集到的屬性值數據根據業務流程特點分解到機務專業對于的人、機、料、管、環等層面,以及可以被標記與識別的二級層面,進而從預防軍用航空器事故發生的角度,開展全面質量管理;這個過程就是尋找引致軍用航空器事故的關鍵質量影響因素,以便在今后的工作中以更有效的航空質量控制手段加以約束,從而使得航空質量安全水平得到根本性的提升。

本研究將構建一種軍用航空器事故關鍵質量特性的數據挖掘模型,以對內和對外的兩種數據分析需求為牽引,以“從數據到情報”的信息層級躍遷為導向,組建不同功能模塊層次,最終輸出可供航空維修一線人員參考使用的軍用航空器事故關鍵質量特性分析情報,輔助航空裝備維修保障和質量控制人員改善工作流程與作業方式,提高航空裝備的質量安全水平。

1 模型構建

該軍航事故關鍵質量特性的數據挖掘系統模型滿足了我方對外和對內兩個方面的數據分析需求,既有利于智能感知外軍航空兵器的建設與運用情況,為我國安全態勢分析與外軍戰略企圖研判提供智力支持;又有利于智慧管理我軍航空兵器的維修與保障情況,為內部質量安全績效考核與裝備維護完好狀況掌控提供決策依據。

在數據挖掘系統模型的功能架構上,采用4階3層的模式架構,即通過A層、B層和C層3個數據處理功能層的計算與處理,使得有關事故數據按照“數據→信息→知識→情報”[6]的信息層級躍升,最終提煉出軍航事故的關鍵質量特性,形成可供決策與行動的航空質量安全情報。其中,A層為數據收集與預處理層,該層從互聯網和內部網這兩個相互物理隔離的網絡中,以人工智能方法和數據庫方法爬取信息、抽取字段、并組建標準化和字段化的事故檔案;B層為數據挖掘與知識發現層,該層集成了眾多先進的機器學習算法,并提供了算法擴展和二次開發的接口,做到了算法互通,以最前沿、最有效的機器學習算法對標準化字段化的軍航事故檔案開展數據挖掘和知識發現;C層為數據可視化與情報分析層,該層集成了眾多先進的可視化方案,以數據可視化的方式展示數據挖掘與知識發現的成果,并促進知識發現成果的可視化智能決策。將經過數據挖掘得到的與關鍵質量特性有關的情報成果,分解為航空質量控制專業所關注的,如:人員資質、完好狀態、使用壽限等層次的情報產品,分發給與之相關的機務保障部門使用,可以切實地提升航空裝備維護保障的質量安全水平。軍航事故關鍵質量特性的數據挖掘系統模型,如圖1所示。

圖1 軍航事故關鍵質量特性的數據挖掘系統模型

生成標準化、字段化的航空事故檔案是進行下一步數據挖掘的前提與基礎。我們通過以外部網絡空間為主渠道的數據獲取方式,來獲得與我們所需的國際軍用航空器事故相關的文本、圖片、音頻、視頻等海量異構的數據信息,通過網絡爬蟲和人工智能技術將這些信息轉化為標準化、字段化的航空事故檔案。如圖2所示,就展示了將網絡新聞文本轉換為標準化、字段化的事故檔案的過程。

圖2 外需版軍航事故檔案標準字段內容的生成過程

通過自然語言處理模塊對新聞文本進行分詞,并使用深度神經網絡對分詞以后的特性語句(如包含時間、機型等信息的語句)進行識別并自動填入檔案的字段。與此同時,(數據獲取與預處理模塊)經過訓練的高級深度神經網絡還具備自動糾偏的功能。例如:在本例中,該墜機事件發生的真正時間是2019年3月31日(并非頁面時間2021-06-18),它由“3月份最后一天”和“2019年墜毀的第10架飛機”這兩個語句通過深度學習的邏輯分析整合而成。

2 算法設計

根據數據挖掘系統的需求分析和結構設計,主要考慮從互聯網獲取的外軍軍航事故的進行數據挖掘的數據特性和任務實際,本文設計了如圖3所示的數據挖掘與知識發現層算法流程,該算法流程可以實現對外軍軍航事故的時間、空間和關聯規則層面的關鍵質量特性的挖掘與分析。

圖3 軍航事故關鍵質量特性數據挖的算法流程

所設計的算法流程目前擁有關鍵時間質量特性、關鍵空間質量特性以及關鍵關聯質量特性3個數據挖掘子模塊,所設計的功能模塊和算法流程具有兼容性和開放性,并且留有二次開發的接口,在同一個系統平臺之下,可以整合利用不同的計算機語言所編寫的程序及軟件,且支持使用本系統的單位自行開發定制化的功能模塊。

2.1 關鍵時間質量特性挖掘模塊

本模塊基于對時間相關字段的統計分析和指標計算,建立起關鍵時間質量特性的分析框架,并為后續的時間序列分析和時間關聯分析等算法的加入做好了數據儲備。

首先,對標準化、字段化的事故檔案的日期、星期等與時間有關字段進行計數;然后,以合適的可視化方法進行初步描述性統計,以反映星期規律和季節規律等;最后,可以調用有關算法進行時間序列分析,并對裝備失效和事故致因行為進行早期預警。

為了更精確和更深入地定量分析墜機事件的安全態勢狀況,本文設計了依從時間序列統計的有傷率(Injury Ratio)、無傷率(Safety Ratio)和墜機風險態勢指標(Situation Ratio)3個量化指標,其定義式如下

(1)

式中:N表示數據集中墜機事件的總量;墜機事件被不重復也不遺漏地二分為有傷亡的墜機事件(其數量為Ninj)和無傷亡的墜機事件(其數量為Nsaf)。

最后,本模塊的挖掘結果,還可以作為時間序列分析等高級數據分析方法的數據輸入。

2.2 關鍵空間質量特性挖掘模塊

本模塊基于GIS系統,聚焦軍航事故空間特性,使用GIS軟件內置地學算法,對所提取的標準化、字段化的軍航事故檔案地理特性字段進行可視化分析,包括但不限于計數分析、密度分析、堆疊分析、緩沖區分析等,進而發現這些事故在地理空間上的規律,為輔助決策提供直接的空間分析依據。圖4是本研究擬啟用的關鍵空間質量特性挖掘的GIS系統功能模塊。

圖4 關鍵空間質量特性挖掘的GIS系統功能模塊

2.3 關鍵關聯質量特性挖掘模塊

本模塊基于關聯規則開展數據挖掘,它被用于無監督知識發現,即搜索大量變量之間的有趣聯系[7]。Apriori算法[8]由美國學者Rakesh Agrawal和Ramakrishnan Srikant于1994年提出,該算法引入先驗信念的概念來減少關聯規則的搜索空間[9]。將度量關聯規則有效性的計量指標定義如下:

(1)X?Y的支持度(Support):定義為前項和后項在整個數據集中同時發生的頻率[10]。其中:N表示事務數據集的事務數總和,σ(Z) 表示表示事務集Z的頻數,TX表示包含項目X的事務集,TY表示包含項目Y的事務集[10]

(2)

定義X自身的支持度為

(3)

(2)X?Y的置信度(Confidence):定義為支持度與前項頻率之比[10],即發生過X后,同時也會發生Y的概率,即

(4)

(3)X?Y的提升度(Lift):定義為置信度和后項頻率之比[10],即度量X與Y的之間的獨立性,代表了關聯強度和規則價值(一般地,Lift值大于1,規則才有價值[11]),即

(5)

(4)X?Y的出錯度(Conviction):定義為X出現而Y不出現的概率,意義在于度量規則預測錯誤的概率[12],即

(6)

3 算例展示

3.1 數據集說明

本文搜集了從2002年11月至2021年1月共218個月被網絡媒體公開報道過的100起Y國空軍墜機事件,事件數據集涵蓋了根據我國軍機分類標準劃分的殲擊機、攻擊機、運輸機、教練機、直升機和無人機共6個機種,涉及20個機型。按照表1的字段格式整理并錄入Excel 2016版本軟件,另存一份CSV UTF-8格式文件到本地以備用。查看整理后的部分數據見表2。

表2 Y國空軍墜機事件數據集

3.2 Y國空軍墜機事件的時間質量特性

根據對數據集星期字段的數據透視計數結果,繪制Y國空軍墜機事件星期分布的柱狀統計,如圖5所示。

圖5 100起公開報道的Y國空軍墜機事件的星期維度分布

墜機事件發生的概率與飛機的出動強度和維修任務強度息息相關,一般飛行日的事故概率較高,機械日的飛行事故概率較低。由圖5可知,近20年的歷史數據告訴我們:Y國空軍的墜機事件的分布并非均勻,也有自己的“生理期”[13]。Y國空軍在周一、周四和周末的墜機數量明顯低于平均水平,由此可以推測:Y國空軍大多數部隊的機械日是周一和周四,飛行日是周二、周三和周五,周末實行雙休制度。周三是兩個連續飛行日的第二日,飛行員和機務人員的身心疲勞度增加;且隨著累計飛行時間增加,飛機零部件的安全性能下降,根據軌跡交叉理論[14],當諸多不安全因素發生交叉時,就會誘發安全事故。另外,按照周四至周六墜機數量的中值,周五墜機數量的期望值應該為8.5架,但實際值卻是期望值的近3倍,這表明Y國空軍有在周五出動大機群執行戰訓任務的習慣。

根據時間質量特性挖掘模塊設置的計算指標,對有傷率(Injury Ratio)、無傷率(Safety Ratio)和墜機風險態勢指標(Situation Ratio)3個量化指標進行計算和可視化展示,如圖6和圖7所示。

圖6 一周內Y國空軍墜機有傷率與墜機無傷率分布

圖7 一周內Y國空軍墜機有傷事件與墜機無傷事件數量之比

由圖5結合圖6和圖7可知,周三的墜機數量最多,但是周四的有傷率和墜機風險態勢指標最高,從航空安全的角度而言:周三周四的墜機概率最大,即“周三周四”效應。周日墜機數量最少,但周一的無傷率最高,墜機風險態勢指標最低,從航空安全的角度而言:周日和周一的飛行任務最安全,即“一周之交”效應。

3.3 Y國空軍墜機事件的空間質量特性

基于與Quantum GIS 3.6.2版本軟件的數據接口,對數據集“所屬地區”(District字段)數據透視的計數結果進行分檔填色地圖形式的地理可視化,圖例分級采用詹克斯自然最佳斷裂點分類(Jenks natural breaks,JNB)方法[15],得到圖8。

圖8 100起公開報道的Y國空軍墜機事件的地理分布注:所示的Y國版圖僅為該國的合法領土,不含存在爭議的地區。

墜機數量的烈度分布,與Y國空軍的訓練計劃安排有關,也在一定程度上反映了不同區域的戰機出動烈度,以及相關的空軍戰備資源儲備情況;在無法獲取外軍的訓練手冊與訓練計劃的情況下,通過墜機事件的數據挖掘可以一定程度地反推外軍組訓施訓的計劃與意圖。

由圖8可知,Y國空軍墜機事件發生最多的區域是位于Y國西北部的拉賈斯坦邦,是其對陣B國的戰略要沖,表明:在Y國高層的空軍戰略層面,最大的威脅與假想敵是B國;Y國空軍在應對Z國的戰略方向上并沒有放松準備,與Z國Z省西部直接毗鄰的喜馬偕爾邦,與Z國Z省南部直接毗鄰的阿薩姆邦,與Z國J省接壤的存在爭議的克什米爾地區,以及直面Z國但被N國隔開的北方邦,這些地區的墜機烈度僅次于拉賈斯坦邦,且在墜機總數上超過了拉賈斯坦邦,對Z國西部的Z省和J省形成了半環形的針對之勢。

3.4 Y國空軍墜機事件的關聯質量特性

本研究使用基于R語言的算法集成,對數據集展開基于Apriori算法的關聯規則挖掘,輸出關聯規則的熱力散點圖(如圖9所示)、分組矩陣圖(如圖10所示)和網絡結構圖(如圖11所示)。

圖9 Y國空軍墜機事件關聯規則的熱力散點圖注:parameter=list(support=0.2,confidence=0.2),找出對應的70條關聯規則。

圖10 Y國空軍墜機事件關聯規則的分組矩陣圖

圖11 Y國空軍墜機事件關聯規則的網絡結構

具有高提升度的關聯規則呈現出“低支持度-高置信度”的特性,大部分規則的支持度在[0.2,0.3]以內;而置信度的分布則跨越[0.2,0.9],較為集中的高置信度區間是[0.7,0.9];提升度基本上都在1.2以上,表明所示的規則均是有意義的,且顏色越深價值越大。

分組矩陣圖以杰卡德距離[16](Jaccard Distance)來衡量不同規則之間的相似程度,并將共同點較多的規則聚合成類,以此體現聚類規則的分布情況[17]。圖中圓點的尺寸大小表示支持度的大小,圓點的顏色深淺表示提升度的大小。如圖10所示,先導(LHS)被聚為23類,后繼(RHS)被聚為10類(另有3個聚類因聚類效果不明顯,被程序自動刪除)。以規則的結果,即后繼(RHS)為線索,梳理高價值(lift>1.6)的規則群組,見表3。

表3 從分組矩陣圖提煉的高價值規則群組

具有高提升度的高價值規則被抽象為了6個群組,涉及墜機事件的機種、原產國、事故致因和事故結果的4個層面。為了進一步分析重要的關聯規則及其因果關系,使用網絡結構圖對關聯規則進行可視化,如圖11所示。

網絡結構圖表達了關聯規則的因果關系,展現出重要的關聯規則。箭頭源頭表示先導,箭頭指向表示后繼[17],顏色的深淺表示提升度的大小,尺寸的大小表示支持度的大小。圖11所示的關聯規則網絡圖譜中,主要呈現出“致死規則”和“幸存規則”兩種隱性知識。

“致死規則”是 {飛行員傷亡=有}?{原因=操作失誤,星期=星期五,時段=上午}, 翻譯為自然語言:“因人為操作失誤而導致的墜機事件,會很大概率上導致飛行員的傷亡?!憋w行員因為操作失誤而導致原本飛行姿態正常的戰機陷入險情,其背后可能隱藏著飛行員精神狀態不佳、應急操作不熟、身體狀況抱恙等隱性原因。飛行員自身的應急處置是守護自己與戰機安全的最后一道屏障,如果失守,所致的飛行事故必然是慘重的。此外,致死飛行事故大多發生在星期五上午,可能是某些Y國的體制因素導致飛行員在周五上午處于一周中生理與心理狀態的低谷,且周五上午飛機出動強度較大所致。

“幸存規則”是 {飛行員傷亡=無}?{機種=殲擊機,原產國=蘇聯,原因=機械故障}, 翻譯為自然語言:“駕駛蘇系殲擊機因機械故障而導致墜機的,往往不會發生飛行員傷亡?!?,這條規則具有“意料之外,情理之中”的藝術性,但也是科學嚴謹的。一方面,Y國空軍保有的蘇系殲擊機,如米格-21等,是上世紀50-70年代首飛的老舊機型,超齡服役、維護不佳、維修不力等因素使其本身就易發生機械故障;另一方面,蘇系殲擊機具有一定的可靠性,在發生機械故障后能給予飛行員一定的應急處置時間,也給予了飛行員在最危急的關頭選擇彈射逃生的時間。

3.5 算例結果與啟示

本文以Y國空軍墜機事件數據集為例,對構建的軍用航空器事故關鍵質量特性數據挖掘模型進行了具體的技術測試,結果表明:該模型能夠很好地處理與分析來自國際互聯網的外軍軍航事故數據,并從時間、空間、關聯三大維度來挖掘事故背后的關鍵質量特性,能提取對我方有益的航空裝備情報,特別是蘇系飛機維修保障裝備情報;做到了以數據挖掘技術賦能航空裝備保障的智慧決策,為航空質量安全水平提升提供了有力支撐。

本算例得到的關于軍航事故的關鍵因素與特性規律,還能被進一步地細化分解。例如:與時間有關的關鍵因素和特性規律,可進一步被分解到與機務保障日程相關的班組工單層面,并能與人、機、料、管、環的安全因素維度相關聯,進一步得出更加符合機務保障工作實際細節的具體影響因素;時間字段通過數據擴展,可以關聯到具體任務和具體飛機所處的氣象環境,并與地理空間特性挖掘的結果相結合,得出引致軍航事故發生的外部環境質量特性;通過關聯分析,將引致軍航事故發生的外部環境質量特性與飛機本身固有的可引致軍航事故發生的內部環境質量特性(如:機型特有的機械結構或維護環節)相結合,得出相對完整的軍航事故關鍵質量特性知識圖譜和關聯規則,為機務保障和維修管理提供班組級的智能化、定制化維修細節應對方案。

4 結束語

本文提出了一種軍用航空器事故關鍵質量特性的數據挖掘模型,由2個主要的需求牽引型功能板塊和3個功能層次模塊所組成。以算例驗證了本模型的可行性與可靠性,得到以下結論:

(1)以100起被公開報道的Y國空軍墜機事件數據集為算例基礎,驗證了模型的有效性,并提取出了時間、空間、關聯三大維度的規律,且具備被進一步分解到航空機務各專業所關注的要素的潛質。

(2)數據挖掘得到的關鍵質量特征知識,會被向量化地存入系統內置知識庫,具有可擴展性和可復用性,能作為訓練集數據,對特定輸入情況下、未來潛在的軍航事故進行預測與預警。

(3)內部數據和外部數據通過挖掘與精煉,在內置知識庫中積累為一個巨大的軍航事故關鍵質量特性向量空間,這些質量數據將成為未來基于數字孿生的軍航事故狀態監測與質量控制數據分析平臺的重要基礎。

所構建的軍用航空器事故關鍵質量特性的數據挖掘模型初步達到了設計的目標,下一階段還需要將封裝好的系統投入實際使用,以檢驗其有效性,并通過運行反饋,不斷迭代與完善,將會為未來基于數字孿生技術的數據挖掘與分析系統的研發提供良好的數據基礎與技術啟示。

猜你喜歡
墜機數據挖掘關鍵
出人意料的墜機
從波音公司墜機事故看安全與效益
硝酸甘油,用對是關鍵
高考考好是關鍵
探討人工智能與數據挖掘發展趨勢
埃塞墜機,157人遇難
基于并行計算的大數據挖掘在電網中的應用
一種基于Hadoop的大數據挖掘云服務及應用
基于GPGPU的離散數據挖掘研究
生意無大小,關鍵是怎么做?
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合