基于數據挖掘的企業信息風險評估

2023-11-09 10:49高旦董斌丁小蔚

微型電腦應用 2023年10期

高旦, 董斌, 丁小蔚

(浙江華云電力工程設計咨詢有限公司,浙江,杭州 310000)

0 引言

伴隨著企業信息化的飛速普及,各種企業信息安全問題迎面而來。同時,信息安全問題具有影響范圍廣以及影響程度深等特點[1-2],當信息安全出現問題很難解決和控制時,科學地對企業信息進行風險評估,提前做好防范措施具有十分重要的意義。國外對信息安全評估研究已經有40多年的歷史,國外專家在早期就已構建了國家認證機構與風險評估認證體系,現階段這些技術已經發展的十分成熟。在國外已有技術的基礎上,國內相關專家提出了一些較好的研究成果,例如王少英等[3]采用帶有非凸懲罰的SVM模型對影響中小企業信息的風險因素進行分析,同時通過LassoSVM完成相關變量的選擇以及對應參數計算,以此為依據構建信用風險評估模型。孟慶勇等[4]對煤礦實施的安全條例進行特征轉換,構建對應的關聯系數矩陣。計算危險發生系數以及更高等級風險發生的概率,組建安全風險評估模型。在上述兩種方法的基礎上,結合數據挖掘技術,提出一種基于數據挖掘的企業信息風險評估方法。經實驗測試證明,本文方法具有良好的數據挖掘能力,同時還能夠有效提升評估效率和評估結果的準確性。

1 方法

1.1 企業信息挖掘

灰色建模是進行灰色預測以及灰色決策建模的基礎[5-6],在設定條件下,主要通過導數對序列的主要特性進行了分析。

當序列滿足準光滑條件時,通過多次累加即可形成對應的序列,進而構建灰色模型,對應序列X的表達式為

X=(x(1),x(2),…,x(n))

(1)

構建累差矩陣A和B,獲取以下形式的計算式:

(2)

(3)

采用式(4)表示h個序列n階微分方程對應的動態模型GM(n,h):

(4)

式中,d(n)和tn代表系數向量,al代表變量。

為了有效對建模的質量和系統進行分析,對于收集到的初始數據進行變換和處理,消除量綱以及可比性。

采用關聯分析中常用的數據變換對齊進行歸納處理,具體如式(4):

(5)

式中,M、N以及Nt分別代表不同指標集對應的下標集合。

為了更好完成對灰色關聯序列的有效分析[7-8],首先需要構建一套相對完成的灰色關聯理論體系,同時對關聯度進行計算,如式(5):

(6)

式中,r(x0,xl)代表關聯度,x0(k)代表位移差,xi(k)代表斜率。

灰色聚類分析主要是以灰色關聯度為基礎的聚類分析方法,主要將其應用于相同因素的合并,促使復雜的系統變得簡單化。在上述分析的基礎上,將灰色關聯分析理論與灰色聚類方法兩者進行有效結合,最終實現企業信息挖掘[9-10]。

1.2 基于數據挖掘的企業信息風險評估體系構建

由于企業信息具有數量多、處理時效高等特點,假設采取人工處理,會導致成本和處理時間增加。為了更好實現企業信息風險評估,需要優先構建企業信息風險評估體系,分析企業現階段的管理情況,采用數據挖掘方法構建可量化的數學模型。評估指標的選取對于評估結果具有十分重要的意義,因此在選取評估指標的過程中,需要結合我國的國情,制定企業風險評估指標需要遵循的首要原則。在備選評估體系指標的過程中,主要借助問卷調查方式。通過匿名問卷調查的方式征詢我國相關專家的意見,對獲取的全部意見進行歸納、統計、整理和分析,客觀綜合多方專家的意見,最終確定企業信息風險因素。其中,評估指標的篩選主要從以下兩個方面進行。

(1) 對風險要素的篩選

對風險要素的篩選主要就是對資產、威脅源與攻擊行為等確定的。通過企業的實際運行情況確定企業的資產信息,對企業的歷史運行狀態和威脅情況進行分析,最終確定危險源以及其他攻擊行為。

(2) 對企業安全要素組合進行篩選

針對企業而言,除了一些因素可能存在意外,還有一些組合也有可能是不可行的。

優先對企業的經營現狀進行分析,同時確定建模數據的主要來源,對采集到的數據依次進行預處理和清洗等操作,詳細的操作步驟如下。

優先清除和建模不存在任何關聯的評估指標,由于源數據庫包含的很多指標和企業信息評估并沒有過大的關聯,所以需要將其在數據庫中清除。然后,對剩余的數據進行格式化統一操作,將其放置在同一服務器中。對于小部分不滿足需求的數據,需要進行屬性轉換。最后,為了有效避免數據質量問題的形成,需要對全部數據進行清洗[11]。

為了簡化模型的計算復雜度,針對全部備選指標進行分組處理。企業信息風險評估體系的建立為我國企業的發展提供了有效的決策信息,整個評估體系主要由9個評估指標組成,具體如圖1所示。

圖1 企業信息風險評估體系

1.3 構建企業信息風險評估模型

在企業風險評估體系中,需要借助三角模糊熵理論有效克服數據量不完整問題[12-13],促使評估結果更加貼合實際,有效提升評估結果的可靠性和有效性。

正向指標主要是指信息安全狀態以及和指數值成正比的指標,即指標取值越大,則信息安全狀況就越好,對應的正向指標打分公式dij為

(7)

式中,j代表評估對象,n代表被評估對象的總數,Vij代表第j個評估對象第i個指標的取值。

負向指標主要是指指標信息安全狀況和指數成反比的指標,同時也說明指數取值越小,企業的信息安全性越高。利用式(7)給出負向指標對應的打分公式dkj:

(8)

式中,Vkj代表第j個評估對象第k個指標的取值。

適中指標主要是指評估指標值越接近任意規定數值越好的指標。通過將溫度控制等相關指標設定為適中指標,全面提升評估結果的準確性。其中,適中指標的打分公式dlj如下:

(9)

式中,Vj0代表評估指標額的適中值,Vlj代表第j個評估對象第l個指標的取值。

最佳區間指標主要是指指標值滿足任意特定的合理區間內指標,可以避免評估結果的片面性,有效確保評估結果的準確性。適中區間最佳區間打分公式可以表示為

(10)

式中,fij代表權數的取值范圍。

通過三角模糊法確定指標權重值,優先設定三角模糊數rl,對應的隸屬度函數可以表示為

(11)

式中,aij、bij和cij代表模糊程度。

確定專家評估權重集E:

E={e1,e2,…,ek}

(12)

當模糊權重確定以后,主要將熵權和三角模糊兩者進行線性組合,構建企業信息風險評估模型Rij[14],根據建立的模型進行評估:

(13)

(14)

式中,q1和q2分別代表指標最佳區間的下限和上限。

設定xij代表第i個被評估企業的第j個指標的觀測數據,n代表被評估對象的總數,m代表第i個被評估對象的指標總數。對于任意一項指標而言,觀測數據xij的差異性越大,則說明該項指標對系統的作用就比較大。其中,熵主要用來衡量信息的不確定性;當熵的取值增加,對應的信息量就會降低;反之,則信息量增加。通過熵值法確定指標權數的具體操作步驟如下所示:

(1) 計算第i個對象和第j個指標的特征比重。

(2) 通過熵值計算公式獲取第j個評估指標的熵值ej。

根據以上過程,實現了基于數據挖掘的企業信息風險評估。

2 仿真實驗

本文實驗均在一臺操作系統為Windows 10的筆記本電腦中進行,利用MATLAB軟件進行模型測試。為了驗證所提基于數據挖掘的企業信息風險評估的有效性,選取J供電企業作為測試對象,針對信息安全問題,對專家、企業管理人員、技術人員等進行采訪和統計,選取企業資產機密性、完整性和可用性作為指標,利用三角模糊法確定指標權重值,包括機密性指標權重為0.5,完整性指標權重為0.3,可用性指標權重為0.2,基于此,對企業資產進行分類,對其價值進行賦值,由此得到下表1。