?

基于流量行為特征的網絡異常穩定識別仿真

2023-09-20 10:36任立勝陳紅紅包永紅
計算機仿真 2023年8期
關鍵詞:網絡流量準確率向量

任立勝,陳紅紅,包永紅

(內蒙古農業大學計算機技術與信息管理系,內蒙古 呼和浩特 010018)

1 引言

隨著科學技術的快速發展與網絡規模的不斷擴大,網絡異常事件也變得越來越頻繁。為了創造性能與安全相互平衡[1]的運行環境,人們對網絡異常行為的識別技術提出了更高的要求,不僅要求識別技術的精度高,還要求其具備優良的準確性。其中的關鍵就是對網絡異常行為識別技術做出升級和優化[2]。通過上述分析可知網絡異常行為識別方法成為目前亟需解決的問題和人們研究的熱點。

王澤偉[3]等人在先驗知識的基礎上構建基于時空融合的雙層卷積神經網絡模型,然后將網絡流量的連續光流幀作為模型的輸入向量,最后將模型遷徙學習算法投入到模型中加快迭代次數,完成網絡異常行為的識別。該方法沒有剔除網絡行為流量中的噪聲,導致方法的異常識別準確率較低。李偉[4]等人首先將深度學習算法與半監督模式融合,得到關于網絡流量的雙極殘差,并以此構建出雙極殘差神經網絡模型,然后將該模型作為網絡異常行為識別的核心模型,在模型中標記出網絡流量的特征,最后采用擾動混合算法生成具有差異性的分類器,并將特征輸入到分類器中,通過加權增量學習算法實現流量的狀態分類,完成網絡異常行為的識別。該方法沒有在訓練模型中引入核函數,導致方法的訓練精度低、進而導致網絡異常行為識別精度低。袁麗欣[5]等人首先提取網絡流量的內容、屬性、分布情況作為三大特征向量,然后將特征向量輸入到XGBoots分類器中完成向量的隨機選擇,最后在分類器的基礎上構建GBM分類模型實現網絡流量的類型分類,完成網絡異常行為的識別。該方法沒有消除網絡流量中存在的噪聲數據,導致方法的異常行為識別準確率較低。

為了解決上述方法中存在的問題,提出基于流量行為特征的網絡異常行為識別方法。

2 網絡流量預處理

2.1 網絡流量降噪

為了避免網絡流量中的噪聲對異常行為識別過程產生干擾,首先采用提升小波變換法剔除網絡流量中的噪聲[6]。提升小變換法的流程如圖1所示。

圖1 提升小波變換降噪法流程

具體步驟如下:

1)利用提升小波變換法處理網絡中的流量時,根據小波變換的奇偶互相關性[7]可以將網絡流量序列分裂成奇數序列與偶數序列,公式如下所示:

split(Ri)=[pi-1,qi-1]

(1)

式中,split表示分裂函數;Ri表示第i個流量序列;p表示偶數序列;q表示奇數序列。

2)在網絡流量的奇數序列與偶數序列之間,必然存在一定的關聯性,因此可以利用奇數序列來預測和控制偶數序列。此時需要引入預測因子,公式如下所示:

ei-1=qi-1-Q(pi-1)

(2)

式中,e表示預測值與實際值之間的相對誤差;Q表示引入的預測因子。

3)近似系數作為網絡流量中的低頻組成部位,可以通過引入更新因子[8]來獲取近似系數。然后重復實行步驟1)與步驟2),可以獲得網絡流量的多級分解。分解公式如下所示:

Ri=V(ei-1)+pi-1

(3)

式中,V表示引入的更新因子。

4)將完成多級分解后的網絡流量重新融合,通過該融合過程實現噪聲的剔除,完成網絡流量的降噪處理,公式如下所示:

(4)

式中,merge表示融合函數。

2.2 網絡流量行為特征提取

針對降噪后的網絡流量,采用矢量量化技術與主題模型算法提取其中的行為特征[9,10],具體步驟如下:

1)將降噪后的網絡流量劃分成若干簇(以量化失真作為終止劃分的依據條件),然后將簇的中心點作為新的簇頭不斷劃分,直到相鄰兩次的劃分結果量化失真率小于基本閾值。公式如下所示:

(5)

式中,a表示網絡流量樣本集合;aj表示第j個網絡流量樣本;D表示簇間樣本點的距離;α表示量化失真程度;l表示迭代次數;m表示劃分總次數;n表示樣本點的總數量。

2)在劃分好的簇中,一般存在兩個平行不相交的序列,分別用I和P表示。則每一個(I,P)對應著一個網絡流量行為特征項,然后將矢量量化算法引入到行為特征項中,可以得到網絡流量的特征量序列。公式如下所示:

(6)

3)基于矢量量化技術與主題模型的特征提取方法,將網絡流量的特征量序列輸入到主題模型中,從中提取出流量的行為特征。主題模型的表達方式如下所示:

(7)

式中,β表示條件概率;u表示概率分布;v表示潛在參數;s表示特征量序列中的詞匯組合;Dirichlet表示狄利克雷函數;χ表示均勻分布的控制參數。

4)主題模型的運算是在不同主題的概率分布程度上實現的,為此引入吉布斯抽樣法[11]計算出網絡流量隱含主題的分布概率,完成網絡流量行為特征的提取,公式如下所示:

u(β,v,s)=u(β|χ)∏u(s|v,D)

(8)

3 網絡異常行為識別實現

將提取的流量行為特征輸入到支持向量機中,通過向量機的二分類結果實現網絡異常行為的識別,原理如圖2所示。

圖2 支持向量機的二分類原理

具體步驟如下:

作為不同屬性的構成矢量,所提取的流量行為特征具有不同維度的分布取值范圍。首先采用歸一化算法使不同維度的流量行為特征值映射[12]到同一維度中,得到具有相同量綱的流量行為特征,公式如下所示:

(9)

式中,b′表示特征值集合中的歸一化值;b表示特征集合中的任意特征;maxb表示集合中該類特征的最大值;minb表示集合中該類特征的最小值。

利用支持向量機對網絡流量行為特征分類過程中,將提取的流量行為特征的每一個字節作為輸入向量,將一個循環周期作為迭代計算的完整流程,可用如下公式表示:

z={T,ID,b1,b2,…}

(10)

式中,z表示支持向量機的輸入向量;T表示循環周期;ID表示網絡中的消息。

將網絡中的流量狀態標簽自定義為k∈[-1,1],其中,1代表流量正常行為;-1表示流量異常行為。在支持向量機中投入非線性約束條件,公式如下所示:

(11)

式中,φ表示松弛系數;ε、g均表示分類超平面參數。

由于網絡流量行為特征中的參數具有非線性性質,因此需要引入核函數[13]將流量行為特征重新映射到新的空間。本文中核函數選取的是徑向基函數,公式如下所示:

(12)

式中,H表示核函數(徑向基函數);φ表示映射方式。

在核函數的基礎上,計算出支持向量機在分類超平面中的對偶分裂形式[14],公式如下所示:

(13)

式中,s.t.表示約束性質;E表示最佳參數。

最佳參數值可以通過訓練樣本集中的網格搜索得到,而在支持向量機模型中由超平面唯一的解(ε*,z*)決定,公式如下所示:

(14)

得到最佳參數值后,輸出支持向量機的分類結果x,將結果為1的網絡流量視為正常行為;結果為-1的網絡流量視為異常行為,完成網絡異常行為的識別[15]。分類結果的公式如下所示:

x=sign[∑bkH(b)+g]

(15)

4 實驗與分析

為了驗證所提方法的整體有效性,需要對其進行如下測試。自主開發并搭建模擬實驗臺,為各個方法的網絡異常行為識別測試提供硬件基礎與軟件條件。其中各個硬件系統參數如下:CPU型號i5-12400F、內存128GB、處理內核12(8+4)、Windows10主顯示器、實驗平臺MatlabR2015a。

為了保證實驗的公正性與主觀性,測試分別在三組數據集中完成。其中MAWILAB數據集是由網絡流量數據與其對應的標簽文檔生成的、ISP數據集是來自于2021年某物流公司采集的流量數據、ISCX數據集是由固定規則的系統生成。這些數據集中的異常樣本是由網絡特定領域下的標準來定義的,實驗數據集的具體參數如表1所示。

表1 不同的實驗數據集參數

將識別精度(AUC-ROC)、識別準確率(AUC-PR)作為評價指標,對所提方法、文獻[3]方法和文獻[4]方法進行對比測試。

1)AUC-ROC

AUC-ROC是表示各個方法在網絡異常行為識別結果中,真陽率與假陽率之間的變動曲線與坐標軸所包圍的面積。其值越高,表明方法的識別精度越高;其值越低,表明方法的識別精度越低。

分別采用上述三種方法識別三組實驗數據集,對比不同方法的AUC-ROC數值,測試結果分別如圖3(a)、圖3(b)、圖3(c)所示。

圖3 AUC-ROC測試結果

分析圖3可知,無論針對哪組數據集的異常行為識別,所提方法的AUC-ROC數值均高于文獻[3]方法和文獻[4]方法的AUC-ROC數值,說明針對網絡異常行為的識別,所提方法的識別精度高于文獻[3]方法和文獻[4]方法的識別精度。這是因為所提方法在異常行為識別之前,首先采用提升小波變換法剔除網絡流量中的噪聲,避免識別過程受到的噪聲干擾,以此降低噪聲對識別效果的影響。

2)AUC-PR

AUC-PR是指各個方法在網絡異常行為識別結果中,準確率與召回率之間的曲線與坐標軸之間的面積,是評價各個方法對異常樣本的識別能力,其值越高,表明方法的識別準確率越高;其值越低,表明方法的識別準確率越低。

進一步采用上述三種方法識別三組實驗數據集,對比不同方法的AUC-PR數值,測試結果分別如圖4(a)、圖4(b)、圖4(c)所示。

由圖4可知,針對網絡異常行為的識別,無論在哪組數據集測試中,所提方法的AUC-PR數值均高于文獻[3]方法與文獻[4]方法的AUC-PR數值,說明所提方法的異常行為識別準確率高于文獻[3]方法與文獻[4]方法的識別準確率。且該方法的AUC-PR數值比較穩定,沒有出現明顯波動,而文獻[3]方法與文獻[4]方法的AUC-PR數值上下波動較大,說明所提方法的準確率穩定性強于文獻[3]方法與文獻[4]方法的穩定性。

所提方法在對網絡異常行為識別過程中,采用了提升小波變換法剔除了網絡流量中的噪聲,預處理后的網絡流量消除了自身的冗余數據,進而在識別過程中不受噪聲數據的影響,在一定程度上提高了方法的異常行為識別準確率。

5 結束語

目前網絡異常行為識別方法存在識別精度低、識別準確率低等問題。為此提出基于流量行為特征的網絡異常行為識別方法。采用提升小波變換法剔除了網絡流量中的噪聲,然后采用矢量量化技術與主題模型算法提取其中的特征,最后將特征輸入到支持向量機模型中實現分類,完成網絡異常行為的識別。提高了識別精度和識別準確率的同時,在一定程度上為網絡識別技術奠定了基礎。雖然所提方法具有一定的有效性,但是由于網絡中的惡意行為類型隨著攻擊技術的發展逐漸增多,因此,接下來將進一步研究面向更多惡意行為識別的方法,以提升所提方法的應用范圍與應用效果。

猜你喜歡
網絡流量準確率向量
基于多元高斯分布的網絡流量異常識別方法
向量的分解
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
基于神經網絡的P2P流量識別方法
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
聚焦“向量與三角”創新題
高速公路車牌識別標識站準確率驗證法
AVB網絡流量整形幀模型端到端延遲計算
向量垂直在解析幾何中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合