魏楓林,王 凱
(吉林大學計算機科學與技術學院,吉林 長春 130012)
現代通信、網絡以及計算機等相關技術的飛速發展,信息技術的應用領域也不斷擴大。網絡實驗室是一種范圍較大且復雜度較高的實時系統,主要涉及計算機科學以及控制理論等多個不同的學科。雖然國內的網絡實驗室起步比較晚,但是在相關領域專家的重視下,網絡實驗室的研究取得了較好的成績,尤其是網絡安全方面[1,2]?,F階段,國內相關專家針對網絡攻擊數據識別方面的內容也進行了大量研究,例如張超群等人[3]將人工標注網絡日志數據作為研究對象,對LSTM網絡分類模型進行訓練,將經過轉化處理的數據輸入到LSTM網絡中進行分類,最終實現網絡攻擊識別。王小英等人[4]引入關聯規則算法組建隱蔽目標識別模型,同時組建目標識別總體框架,通過APT目標的相關屬性對各個網絡威脅之間的關聯規則進行計算,提取目標檔案數據,最終根據可信度實現網絡威脅隱蔽目標識別。
基于上述兩種已有方法的實現過程,提出一種網絡實驗室虛假數據注入攻擊深度識別方法。經實驗測試可知,所提方法可以全面降低計算開銷、存儲開銷以及能量消耗,有效提升識別率。
由于實驗室網絡中包含大量數據,對網絡實驗室虛擬數據注入攻擊識別會耗費大量的時間,同時計算過程也十分復雜,因此需要優先對虛假數據注入攻擊進行預處理,有效降低識別時間。
通過小波閾值去噪方法[5,6]處理虛假數據注入攻擊行為,詳細的操作步驟如下所示:
1)優先確定網絡實驗室虛假數據的分解層數,具體的計算式為
c=lgl-5
(1)
式中,c代表網絡實驗虛假數據的分解層數;l代表虛假數據的總數。
利用式(2)給出虛假數據的信噪比計算式
(2)
式中,X代表信噪比;a2(i)代表含有噪聲的信號;b2(i)代表原始信號。
虛假數據的均方根誤差可以表示為式(3)的形式
(3)
式中,J代表虛假數據的均方根誤差;n代表原始虛假數據。
2)根據選定的閾值,可以對各個尺度的虛假數據對應的分解系數進行處理。
3)在識別網絡實驗室虛假數據注入攻擊過程中,需要確保識別結果的準確性,同時還需要對欺騙性的數據進行分析。在上述基礎上,對虛假數據進行重構,實現網絡實驗室虛假數據注入攻擊預處理[7,8]。
由于新型虛假數據注入攻擊具有很強的欺騙性,攻擊識別的首要任務是確保識別精度。對于網絡實驗室數據而言,需要對虛假數據的輸入攻擊機理進行分析,將數據樣本劃分為正常實驗室數據和受到攻擊的網絡實驗室數據,進而組建含有標簽的正負數據樣本,采用機器學習的分類方法對識別模型進行訓練。同時根據挖掘數據之間的關系,可以全面識別結果的準確性以及穩定性。其中,機器學習的攻擊識別機理如下所示:
1)如果給定含有攻擊前后的正負的網絡實驗室虛假數據,則有
S={si},i={1,2,…,n}
(4)
(5)
網絡實驗室虛假數據注入攻擊的識別問題可以表示為以下形式
(6)
利用圖1給出基于機器學習的虛假數據注入攻擊深度識別流程圖:
圖1 虛假數據注入攻擊深度識別流程圖
為了確保識別結果的精度[9,10],在識別特征數據集的基礎上,采用機器學習對二分類問題進行處理,同時通過監督學習的方式,將決策樹算法和梯度提升框架進行迭代組合。決策樹是一種有效的機器學習模型,需要將相同的虛假數據劃分至相同的節點,采用遞歸學習的方式對網絡實驗數據虛假數據進行分割,同時在每次劃分的過程中獲取最優分割點,不斷降低下一層分割的誤差。同時可以被應用于處理大部分的分類回歸任務中。
設定現階段含有n個網絡實驗室數據樣本,則構建的虛假數據注入攻擊數據集G可以表示為式(7)的形式
G={(x1,x2),(x2,x2),…,(xn,xn)}
(7)
式中,(xn,xn)代表攻擊數據集的子集。
通過式(8)計算損失函數
(8)
式中,S0(x)代表損失函數;H(xn,xn)代表錯誤樣本出現的概率。
當得到損失函數以及初始化基學習器后,需要不斷進行迭代,模型的每一次提升是在上一代模型的損失函數的基礎上降低殘差取值,組建精度更高的分類器,直至滿足迭代需求,詳細的操作步驟如下所示:
1)設定迭代次數為x,則對應極小值方向的殘差為
(9)
式中,cim代表殘差;(xi,yi)代表數據子集的坐標位置。
2)將式(9)獲取的殘差設定為輸入,獲取決策樹葉節點區域Qm
(10)
3)求解損失函數在梯度下降方向的最優步長,同時將損失函數進行極小值化處理。
4)組建分類精度更高的弱分類器模型[11,12],同時設定學習率的取值范圍,有效避免模型出現過分擬合的情況。
5)迭代結束,通過多個高準確性的弱分類器組合獲取最終梯度提升決策樹模型Fbest(i),具體的表達形式為
(11)
式中,φ(i,j)代表弱分類器總數。
當完成對模型的訓練之后,可以計算網絡實驗室受到攻擊和未受到攻擊的概率,如式(12)所示
(12)
式中,g+(i,j)和g-(i,j)分別代表網絡實驗室受到攻擊和未受到攻擊的概率。
通過以上分析,通過決策樹算法和梯度提升框架構建虛假數據注入攻擊深度識別模型S(i,j),如式(13)所示
(13)
果蠅優化算法[13,14]是一種獲取全局最優的方法,果蠅可以更好地通過嗅覺器官感受空氣中的不同氣味,通過氣味獲取事物所在的位置,同時朝著該方向飛行。
通過果蠅對食物進行搜索,以下給出果蠅算法的詳細操作步驟:
1)設定種群規模,同時還需要設定最大迭代次數,對各個果蠅個體位置進行初始化處理。
2)各個果蠅個體進行食物搜索,將果蠅和食物之間的距離稱為搜索距離,詳細的計算式為
(14)
式中,di和ei代表果蠅個體的坐標位置;D-axis和E-axis分別代表不同果蠅個體的搜索長度;RandomValue代表搜索距離。
3)由于無法直接獲取事物的準確坐標位置,需要計算目標和原始兩者之間的距離,同時計算最新位置的味道濃度判定值pi,具體計算式為
(15)
式中,Ddist代表距離倒數。
4)通過步驟3)獲取的味道濃度判定值求解不同果蠅個體的味道濃度值。
5)獲取群體中味道濃度最佳的個體。
6)記錄并保存最佳味道濃度值,同時確定果蠅最終飛去的方向。
7)進行迭代尋優,同時重復以上操作步驟,直至滿足設定需求;反之,則跳轉至步驟6)。
由于基本果蠅算法的收斂速度比較慢,且收斂精度比較低,為此,需要對其進行改進,提出一種自適應混沌果蠅優化算法,詳細的操作步驟如圖2所示。
圖2 自適應混沌果蠅優化算法操作流程圖
1)對算法中的各個參數進行設定,同時群體中不同果蠅個體位置進行初始化處理,則果蠅的初始位置如式(16)所示
c(i,j)=rand(up)
(16)
式中,c(i,j)代表果蠅的初始坐標位置;rand(up)代表果蠅的坐標位置范圍。
2)給定群體中各個果蠅的飛行方位以及具體間距,則果蠅個體的最新位置可以表示為式(17)的形式
Xin=c(i,j)*rand(up)*w
(17)
式中,w代表果蠅個體的權重值。
3)計算不同群體中不同果蠅個體的味道濃度。
4)選取群體中最佳味道濃度個體的果蠅個體,同時保存并記錄果蠅的濃度取值以及對應的坐標位置,如式(18)所示
pbest=min(pi)
(18)
式中,pbest代表最佳果蠅味道濃度。
5)持續保持最佳濃度值以及果蠅的坐標位置,果蠅群體通過視覺搜索向目標位置飛行。
6)將多個種群的最優解進行對比,進而獲取此次迭代的最優解,同時和前一次的最優解進行對比,最終得到全局最優解,實現虛假數據注入攻擊深度識別模型參數優化處理。
當完成識別模型的參數優化后,進行虛假數據注入攻擊深度識別,詳細的操作步驟為:
1)將經過預處理的虛假數據注入攻擊輸入到模型中,提取虛假數據注入攻擊的主要特征,同時進行映射處理。
2)將經過模型處理的結果輸入到池化層中,同時將數據劃分為多個不同重復的區域,將各個區域的虛假數據進行聚合[15]。
3)重復上述操作步驟,同時將步驟2)中獲取的聚合結果輸入到網絡結構中,通過虛擬數據的更新門以及重置門得到全新的虛假數據注入攻擊訓練數據集。
4)根據輸出的識別結果,完成虛假數據注入攻擊深度識別。
為驗證所提網絡實驗室虛假數據注入攻擊深度識別方法的有效性,設計仿真實現方法的性能測試。
1)存儲開銷測試
在網絡實驗室運行階段,會進行數據存儲,以下實驗測試主要分析不同方法的節點存儲開銷,詳細的實驗測試結果如表1所示。
表1 不同方法的存儲開銷對比結果
由表1中的實驗數據可知,相比另外兩種方法,所提方法的存儲開銷明顯更低一些。這主要是因為所提方法對網絡實驗室虛假數據注入攻擊進行預處理,可以有效濾除數據中的噪聲,同時簡化操作流程,促使所提方法的存儲開銷得到有效降低。
2)計算開銷測試
由于不同方法的操作步驟完全不同,導致方法的計算開銷也存在十分明顯的差異,以下實驗測試進一步對比三種不同方法的計算開銷,詳細的實驗測試結果如圖3所示:
圖3 不同方法的計算開銷測試結果對比
分析圖3中的實驗數據可知,各個方法的計算開銷會隨著測試樣本的增加而增加。其中,所提方法的計算開銷在三種方法中為最低;文獻[3]方法的計算開銷次之;而文獻[4]方法的計算開銷最高。由此可見,所提方法可以以更快的速度完成網絡實驗室虛假數據注入攻擊深度識別。
3)能量消耗測試
分析在不同虛假數據包數量持續增加情況下,三種方法的能量消耗情況,詳細的實驗測試結果如圖4所示:
圖4 不同方法的能量消耗情況測試結果對比
分析圖4中的實驗數據可知,當虛假數據包數量增加,各個方法的能量消耗也開始持續增加。但是相比另外兩種方法,所提方法的能量消耗明顯更低一些。
4)虛假數據注入攻擊深度識別率測試
為了進一步驗證所提方法的優越性,以下實驗測試對比三種不同方法的虛假數據注入攻擊深度識別率,如圖5所示:
圖5 不同方法的虛假數據注入攻擊深度識別率測試結果對比
分析圖5中的實驗數據可知,所提方法可以以更大的率實現虛假數據注入攻擊深度識別,全面驗證了所提方法的優越性。
針對傳統實驗室網絡攻擊識別方法存在的一系列問題,設計并提出一種網絡實驗室虛假數據注入攻擊深度識別方法。經實驗測試證明,所提方法可以有效降低計算開銷、存儲開銷和能量消耗,提升識別率,獲取更加滿意的識別結果。
在現有方法的基礎上,后續將進一步對其進行完善,全面完善所提方法的各方面性能。