?

基于改進二分K-means算法的網絡異常檢測技術研究

2022-12-01 12:59張雅茹
鄂州大學學報 2022年6期
關鍵詞:誤報率聚類樣本

張雅茹

(連云港開放大學 繼續教育學院,江蘇 連云港 222000)

大數據時代,海量數據中隱藏著的大量攻擊性異常行為數據對網絡安全造成重大隱患,而入侵檢測技術能夠為數據安全提供保障[1]。針對現有網絡異常行為檢測技術中因數據不平衡而導致召回率低的問題,楊宏宇等人提出一種基于逆向習得推理的異常行為檢測模型,實驗結果表明,該模型在數據不平衡時仍具有較高的召回率和檢測精度[2]。針對現有網絡流量異常檢測技術對網絡環境動態變化適應性差的問題,蔣華團隊提出一種自適應閾值的網絡流量異常檢測方法,研究結果表明,該檢測方法對網絡異常流量具有較高的檢測精度[3]。在關于網絡異常檢測技術的研究中,較少有學者用二分K-means 算法解決正常行為特征行為模型效率低的問題,基于此,研究提出以改進后的二分K-means 算法來構建正常行為特征訓練集模型,并在此基礎上設計出網絡異常檢測算法ITCM-KNN,期望實現對網絡異常行為數據的高效檢測。

1 基于改進二分K-means 算法的網絡異常檢測算法設計

1.1 以改進二分K-means 算法構建正常行為特征模型

網絡異常檢測技術是根據正常的網絡數據集建立模型,然后將待檢測的數據與模型進行比對來判斷數據是否異常,異常檢測能夠檢測出未知的異常行為數據,甚至察覺到潛在的網絡攻擊行為,因此常被用于進行網絡安全監測[4-5]。大數據時代下,隨著網絡數據不斷更迭,傳統異常檢測方法效率低下、誤報率較高,難以有效區分攻擊類型和正常類型,基于此,研究提出基于改進二分K-means 算法的網絡異常檢測模型。首先利用二分K-means 聚類算法來對海量數據進行挖掘分析從而構建出正常網絡行為模型,其次結合正常網絡行為模型設計出檢測算法ITCM-KNN,該模型如圖1 所示。

圖1 基于改進二分K-means 算法的網絡異常檢測算法模型示意圖

聚類分析是在未給定訓練目標的情況下按照“簇內樣本相似度最大,簇間樣本差異度最大”的規則對所收集的數據對象進行分類[6-7]。K-means劃分聚類算法因其簡潔、高效而被廣泛應用,該算法的核心是依據特定的距離函數在已知的數據集合上將數據對象反復分配至k(需要的聚類數目)個聚類中[8]。根據歐幾里得距離公式計算出數據樣本點和聚類中心的距離如式(1)所示:

式(1)中,m 表示待聚類的個體特征變量,Xik、Xjk分別為第i 個、第j 個樣本的第k 個指標的取值。Dist(Xi,Xj)表示樣本點Xi、Xj之間的距離,距離越小表明兩個樣本點的性質越相近。在構建正常行為特征訓練集模型時,Xij、Xjk分別代表兩個不同時刻的基于流量數據屬性的度量值數據集合。在異常檢測階段,Xij、Xjk分別代表不同時刻所得的H(SIP)、H(InDeg)、H(DPort)、OWCD 四維結構數據屬性的度量值。假定總數據集D 通過聚類得到K個簇即D=(D1,D2,D3,…,Dk),異常檢測是以每個新類中各維數據的均值作為新類的中心值,新類Di的中心值Xi0如式(2)所示:

式(2)中,r 代表在某個新類中的數據個數,Xt1、Xt2、Xt3、Xt4分別表示四維結構的離散樣本點。由于K-means 算法是一種用于優化非凸代價函數的貪婪下降求解算法,易陷入局部最優解,且聚類結果受制于聚類中心的初始化選擇,因此研究引入二分K-means 算法解決上述問題。該算法的核心是利用K-means 算法將所有樣本數據分為兩個聚類,然后從兩個聚類中選擇樣本數據數量最多的聚類,并對該聚類進行迭代劃分操作直至獲得K個簇類算法。K-means 算法中的畸變函數即誤差平方和是聚類的評價函數,如式(3)所示:

1.2 以ITCM-KNN 算法設計網絡異常檢測方法

直推信度機是以隨機性思想理論為基礎建立的一種置信度機制,常用于衡量樣本的類別歸屬問題[9]。K-近鄰分類算法通過直接從訓練集中搜尋出距待分類的樣本對象最近的k 個點來對樣本進行歸類,但是若樣本分布不平衡,待分類的樣本便可能分配到非目標類中,利用TCM 的檢測函數能夠避免KNN 算法將待分類的樣本歸類于非目標類中[10]。研究結合TCM、KNN 設計出TCM-KNN算法,該算法基于現有的樣本區域計算出待分類樣本各點之間的空間距離,然后利用置信度外推機制得到檢測函數P,并根據P 值評估樣本分屬于某一類中的可靠度。待分類的樣本i 對于類別y 的P 值如式(4)所示:

式(4)中,“#”為集合的“勢”,表示有限集合所包含的元素個數,αj為集合中任一樣本的奇異值,αi為待分類樣本的奇異值,n 表示集合的個數。研究將TCM-KNN算法結合聚類分析構建網絡異常檢測算法ITCM-KNN。ITCM-KNN算法是根據聚類后的正常數據集而構建的異常檢測算法,假設改進的二分k-means 算法將正常數據集合分類為f 個聚類,ITCM-KNN 算法首先需計算出待測樣本相對于f 個聚類中心的歐氏距離,并將待測樣本加入到距離最短的聚類中。然后選擇最接近待檢測樣本點的聚類作為正常特征行為訓練集。最后根據公式(4)得到待測樣本歸屬于正常特征行為訓練集的概率P 值,若P 值小于預定的閾值τ=0.05,則置信度為1-τ 即作為判定異常的指標。

2 網絡異常檢測實驗結果分析

2.1 ITCM-KNN 算法的性能仿真實驗分析

研究選用1999DARPA 數據集對異常檢測算法進行評估,使用Wireshark 抓包工具捕捉分析網絡中的數據包。對構建正常行為模型的改進二分K-means算法設置參數:聚類個數z=5;對網絡異常檢測算法ITCM-KNN設置最近鄰目數k=8,置信度1-τ=95%,并且實驗引入傳統檢測算法Cluster 作為基準算法與研究所提出的算法進行對照實驗。為檢驗ITCM-KNN算法的優越性和有效性,研究在數據集上仿真算法Cluster、KNN、ITCM-KNN 對K-means 的聚類能力,以每一次迭代后的最優適應度值作為指標,如圖2 所示為根據每次迭代結果所繪制的迭代收斂圖。

圖2 不同算法在數據集上的收斂圖

由圖2 仿真曲線可知,相較KNN、Cluster 算法,ITCM-KNN 算法適應度曲線較為平滑且收斂速度最為迅速,在迭代次數20 次內就以較快的速度接近全局最優解,在[20,40]的迭代區間內實現最優解。由此說明,ITCM-KNN 算法對比KNN、Cluster 算法對全局和局部的搜索能力提升顯著,聚類效果更優異。

2.2 ITCM-KNN 算法應用于網絡異常檢測的效果分析

實驗以檢測率、誤報率作為衡量算法對網絡異常進行檢測的指標,如圖3 所示為Cluster、KNN、ITCM-KNN 算法誤報率-檢測率實驗關系對比圖。

圖3 算法誤報率-檢測率檢測對比圖

由圖3 可知,隨著檢測率的提升,三種算法的誤報率均相應增加,其中ITCM-KNN 算法相較KNN、Cluster 算法在較高的檢測率下誤報率最低且曲線走勢平滑,由此說明ITCM-KNN 算法能較好平衡檢測率和誤報率兩者指標的關系。如圖4所示為三種算法在網絡異常檢測中檢測率、誤報率的具體表現。

圖4 算法網絡異常檢測效果對比圖

由圖4 可知,ITCM-KNN 算法在檢測率指標中相較Cluster、KNN 算法提升顯著,其檢測率較Cluster 算法平均提高8.37%,較KNN 算法平均提高2.78%。ITCM-KNN 算法在數據含量超過1/2 后與KNN 算法曲線拉大差距,說明ITCM-KNN 算法能夠快速準確地確定聚類中心,跳出局部最優值而確定全局最優值,從而提升對數據集的檢測率。從誤報率指標結果圖可知,ITCM-KNN 算法相較其它兩種算法誤報率最低,隨著數據含量增大誤報率下降明顯,其中相較Cluster 算法誤報率平均下降2.14%,較KNN 算法平均下降1.03%。

3 結論

在大數據時代,網絡數據呈現出指數級增長的趨勢,而在這些數據中,大量網絡異常數據所代表的網絡性攻擊行為對網絡安全造成巨大挑戰,傳統網絡異常檢測技術難以對海量數據進行有效挖掘分析。研究提出以改進二分K-means 聚類算法構建正常行為特征訓練集模型,在此基礎上將直推信度機制、K-近鄰算法結合所建立的正常行為特征模型設計出異常檢測算法ITCM-KNN,隨后以仿真的形式對該算法進行了驗證。實驗結果表明,ITCM-KNN 算法的檢測率相較Cluster 算法平均提高8.37%,誤報率平均下降2.14%,檢測率相較KNN 算法平均提高2.78%,誤報率平均下降1.03%。由此說明研究所提出的ITCM-KNN 算法能夠在保持較高檢測率的同時降低誤報率,改善了傳統檢測技術難以處理海量數據的困境。由于研究對該算法進行驗證所采用的是模擬實驗數據集,因此未來可將ITCM-KNN 算法應用于真實網絡環境中檢測,以便更有效說明該算法的適應性與可行性。

猜你喜歡
誤報率聚類樣本
原始數據動態觀察窗法在火災特征信號融合提取中的應用研究
家用燃氣報警器誤報原因及降低誤報率的方法
用樣本估計總體復習點撥
鉆桿管體超聲波探傷誤報分析及措施
基于K-means聚類的車-地無線通信場強研究
推動醫改的“直銷樣本”
基于高斯混合聚類的陣列干涉SAR三維成像
隨機微分方程的樣本Lyapunov二次型估計
基于Spark平臺的K-means聚類算法改進及并行化實現
村企共贏的樣本
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合