徐 彬,黃春麟,吳 迪,滑 斌
(寧夏大學信息工程學院,寧夏 銀川 750021)
網絡安全[1]問題日益凸顯,網絡危機一旦發生,將給用戶、企業甚至整個國家帶來無法預估的損失,社會負面影響巨大。因此在問題出現之前,對網絡入侵進行檢測與防御,是規避網絡安全威脅的重要環節。網絡入侵檢測[2]實驗測試方法,是測試網絡入侵檢測方法性能的關鍵。
文獻[3]方法提出基于改進的深度信念網絡的入侵檢測方法。該方法利用改進的DBN算法對網絡數據進行無監督學習;在算法中加入自適應學習速率縮減模型訓練時間,使用softmax分類方法對網絡數據進行分類,依據分類結果識別網絡攻擊數據,實現網絡的入侵檢測。該方法由于未能在入侵檢測前進行數據去噪處理,導致該檢測方法的攻擊正確識別比例低。文獻[4]方法提出基于集成深度森林的入侵檢測方法。該方法首先依據卷積神經網絡建立一個網絡檢測模型,使用Bagging集成策略分析網絡模型隱藏層結構,依據分析結果引入隨機森林機制,重構模型隱藏層;再依據拼接向量機完成數據特征分類,結合優化后的神經網絡模型,完成網絡入侵數據的檢測。該方法在重構模型時存在問題,導致該方法的數據正確分類樣本比例低。文獻[5]方法提出基于支持向量機方法的網絡入侵檢測實驗研究。該方法依據對網絡規則信息、邊界信息以及攻擊信息的界定劃分數據攻擊類型;通過支持向量機完成網絡數據的分類,實現入侵數據的檢測。該方法在進行數據攻擊類型劃分時存在問題,所以該方法的檢測性能差。
為解決上述網絡入侵數據檢測過程中存在的問題,提出面向分布式網絡入侵檢測的實驗測試方法。
在對分布式網絡進行入侵檢測前,需要通過網絡數據的去噪結果提取網絡入侵數據特征。
首先設定網絡數據信號的母小波為L2(R),母小波函數為δ(x),數據信號的連續小波變換過程如下式所示
(1)
式中,網絡數據連續小波變換結果表述成αf(a,χ)形式,尺度因子為a,位移因子為χ,符號因子為〈f(x),δ(x)〉,小波系數用α表述。
為簡化信號變換計算流程,對獲取的信號尺度進行二進制離散處理,小波變換[6]的二進制離散過程如下式所示
(2)
式中,i、k為常數。在信號處理過程中,使用Lipschitz指數計算網絡數據信號局部奇異值[7],過程如下式所示
|f(x)-f(x0)|=b|x-x0|β
(3)
式中,小波系數在網絡初始數據信號處的奇異指數標記為β,奇異函數用|f(x)-f(x0)|表示,噪聲指數用b表述。函數平滑結果越好,說明該位置數據信號的奇異指數越高。
由于分布式網絡數據中白噪聲信號分布較大,且為隨機分布形式,因此設定小波系數為f(x)∈L2(R),?x∈εx0,且母小波函數滿足連續變換特性,從而獲取網絡數據信號的l階消失矩,結果如下式所示
(4)
式中,信號極大模值用|αf(a,x)|表述。最后依據上述計算結果完成網絡數據信號的小波去噪。
依據數據去噪結果,使用Fisher理論[8]提取網絡入侵數據特征。
2.2.1 獲取數據Fisher分值
Fisher理論是基于樣本數據距離提取樣本數據特征的特征選擇算法,當數據樣本特征類別距離差最大,同類數據樣本距離最小時,可依據Fisher理論尋找數據的最佳樣本特征。
設定網絡入侵數據訓練集為C={(p1,q1),(p2,q2),…,(px,qx)},特征維度空間表述為d形式,通過整合,將網絡入侵數據訓練樣本集分成正負兩個數據集類別,劃分過程如下式所示
L=wb/ws
(5)
(6)
2.2.2 基于支持向量機的特征抽取
基于上述獲取的數據Fisher分值[9],使用支持向量機分類算法計算數據訓練集,尋找網絡數據最佳權值e。首先依據數據Fisher分值建立網絡數據的權值代價函數[10],過程如下式所示
(7)
式中,建立的網絡數據權值代價函數用ming(e)表述,網絡入侵數據分別表述成qi、pi形式。通過函數轉換,將網絡入侵數據的二次規劃問題,轉換成數據的對偶問題,轉換過程如下式所示
(8)
式中,數據的對偶函數標記為minE(φ),對偶因子標記為μi。最后基于上述計算結果,獲取數據的最優分類函數,完成數據的特征抽取,過程如下式所示
(9)
通過上述網絡入侵數據特征的提取,建立網絡入侵數據的馬爾可夫檢測模型[11],依據數據的訓練結果,確定數據的攻擊行為,并使用該模型完成網絡數據的入侵檢測。
設定網絡數據入侵特征為r,數據訓練樣本標記為A=A1+A2,且A1為正常樣本數據,A2為入侵樣本數據,基于隱馬爾可夫模型固定語法,建立隱馬爾可夫模型,標記為M=(W,H,K),其中,數據狀態集表述成W形式,狀態轉移矩陣表述成H,狀態輸出矩陣表述成K形式,模型輸出概率獲取結果如下式所示
P(sH|M)=∑wT∈Wsp(L-w1)
p(w1↑s1)p(w1-x2)…p(wM↑sM)
(10)
式中,WT為數據狀態序列值,狀態集合標記成Ws。
基于貝葉斯原理[12],設定模型得到最大后驗概率為P(M|A),依據相關模型語法完成后驗概率的獲取,過程如下式所示
(11)
若式中模型概率已知,通過計算可獲取數據集A的元素概率乘積P(ai|M),結果如下式所示
(12)
由于模型的復雜度會影響模型狀態以及狀態轉移數據量的大小,所以要通過對P(M)=(N+1)NH+NK的計算獲取模型的最佳先驗概率值。其中,模型最佳狀態值標記為N,狀態轉移向量表述成NH形式,狀態輸出標記為NK。
基于上述分析結果可知,模型的求解問題可看作為模型的迭代過程,通過整合獲取的模型狀態向量值,完成模型的求解。設定模型迭代序列為{M1,M2,…,Mk,Mk+1},通過迭代計算,尋找出模型的最佳狀態,實現模型的訓練。
設定模型的異常測度為sH,獲取結果如下式所示
η(sH)=-lnP(sH|M)
(13)
式中,獲取的數據異常測度標記為η(sH),網絡數據的狀態概率用P(sH|M)表述。設定網絡數據狀態概率P(sH|M)的最佳取值范圍為[0,1],異常測度值為[0,∞],以此獲取數據的異常類型值,過程如下式所示
A1=arg min[P(A0|A1,τ)+P(A1|A0,τ)]
(14)
式中,劃分系數標記為τ,數據異常概率值標記為P(A1|A0,τ),正常概率標記為P(A0|A1,τ)。
分布式網絡的入侵數據檢測[13,14]流程如下:
1)采集分布式網絡數據,使用小波變換方法獲取數據信號奇異值,完成數據信號的去噪處理。
2)使用Fisher理論提取網絡入侵數據特征。
3)通過上述網絡入侵數據特征[15]的提取,建立網絡入侵數據的馬爾可夫檢測模型。
4)通過對模型先驗概率以及后驗概率的獲取,完成模型的訓練。
5)將網絡數據放入訓練好的模型中進行分類,尋找其中的網絡入侵數據,完成網絡入侵檢測。
為了驗證上述分布式網絡入侵檢測方法的整體有效性,需要對此方法進行測試。
分別采用面向分布式網絡入侵檢測的實驗測試方法(所提方法)、基于改進的深度信念網絡的入侵檢測方法(文獻[3]方法)、基于集成深度森林的入侵檢測方法(文獻[4]方法)進行測試。
在進行分布式網絡入侵檢測時,可依據檢測到的網絡異常數據量以及正常數據量完成檢測方法的檢測性能。通過網絡入侵檢測時網絡攻擊的精準檢測數量σ、正確數據誤報數量ω、檢測正確數量η以及錯誤攻擊節點估計成正常節點數量λ的整合,獲取網絡入侵數據異常檢測方法的性能檢測指標,分別為網絡數據遭受攻擊時的正確識別比例(DR),數據正確分類樣本比例(Accuracy)以及檢測出的攻擊數據中真正產生攻擊行為的數據比例(precision),獲取過程如下式所示
(15)
采用上述三種網絡入侵檢測方法進行網絡入侵檢測,基于上述三種性能檢測指標,完成檢測方法的檢測性能測試。
1)檢測方法的DR值對比
DR指標是測試網絡入侵檢測方法檢測性能的重要指標之一。DR值越大,說明檢測方法的檢測性能越好,反之則越差。采用上述三種網絡入侵檢測方法進行網絡入侵檢測時,測試三種方法的DR值,檢測結果如圖1所示。
圖1 不同檢測方法的DR值測試結果
分析圖1可知,網絡數據量的增加會影響檢測方法的DR值。所提方法在進行網絡入侵檢測時,檢測出的DR值高于文獻[3]方法以及文獻[4]方法的DR值測試結果,文獻[3]方法測試結果遠低于所提方法,略高于文獻[4]方法測試結果,文獻[4]方法的測試結果不理想。這主要是因為所提方法在進行網絡入侵檢測前,使用小波變換方法對網絡數據進行了去噪處理,所以該方法進行網絡入侵檢測時的DR值高。
2)檢測方法的Accuracy值對比
在進行網絡入侵檢測時,Accuracy值同樣為檢測性能的重要指標,檢測方法的Accuracy值越高,說明檢測方法的檢測性能越好,反之則越差?;谏鲜鋈N檢測方法進行網絡入侵檢測,對比三種方法的Accuracy值,測試結果如圖2所示。
圖2 不同檢測方法的Accuracy值測試結果
分析圖2可知,數據量的增加會降低檢測方法的Accuracy值。所提方法測試出的Accuracy值會隨著測試數據量的增加而有所下降,但是當數據量超出一定范圍后,所提方法會將Accuracy值測試結果穩定在固定范圍內。文獻[3]方法在測試前期測試結果高于文獻[4]方法的測試結果,但是隨著測試的進行,當網絡數據增加至30萬條時,文獻[4]方法測試結果反超文獻[3]方法,僅次于所提方法。由此可知,所提方法進行網絡入侵檢測時的Accuracy值高。
3)檢測方法的precision值對比
使用所提方法、文獻[3]方法以及文獻[4]方法進行網絡入侵檢測,測試三種檢測方法的precision值,測試結果如圖3所示。
圖3 不同檢測方法的precision值對比結果
分析圖3可知,隨著數據量的增加,三種檢測方法的precision值都出現了不同程度的下降趨勢。所提方法測試出的precision值高于文獻[3]方法以及文獻[4]方法測試結果,文獻[3]方法略低于所提方法,高于文獻[4]方法測試結果,文獻[4]方法測試結果最差。由此可知所提方法進行網絡入侵檢測時的precision值高。
針對傳統網絡入侵檢測方法中存在的問題,提出面向分布式網絡入侵檢測的實驗測試方法。該方法首先依據數據去噪結果提取數據特征值;再使用隱馬爾可夫理論建立網絡入侵檢測模型;最后通過該模型完成網絡的異常數據識別,實現網絡的入侵檢測。經過實驗驗證,得出所提方法具有較好的檢測性能。