?

SDN中基于LightGBM算法的入侵檢測研究

2021-09-08 02:06馬群胡佳卉于雅靜
中國新通信 2021年14期
關鍵詞:入侵檢測

馬群 胡佳卉 于雅靜

【摘要】? ? 針對當前軟件定義網絡中傳統的入侵檢測效率較低,為提高網絡入侵檢測的效率和準確性,本文提出一種基于LightGBM算法的入侵檢測模型。針對LightGBM算法準確性高、速度快可以處理高維數據等特點,采用LightGBM算法建模對入侵數據特征分析處理,然后與隨機森林、XGBoost、LSTM、SVM和邏輯回歸算法對比效果,最后對網格搜索算法進行改進,提高網格搜索算法優化模型參數的效率。通過實驗分析,在模型的精確率、F1值,AUC值等評估指標上都有較好的效果,驗證了本文所提方法的有效性。

【關鍵詞】? ? 入侵檢測? ? LightGBM算法? ? 網格搜索算法

引言:

隨著網絡時代的發展,當前的網絡入侵檢測系統缺乏對頻繁變化的網絡環境的適應性。不安全的網絡環境會給人們在工作、生活和科研等方面造成多種損失。因此在網絡安全領域,入侵檢測成為一個重點研究方向。

目前,在網絡安全的研究領域有很多關于入侵檢測的文獻,其中,在文獻[1]中提出了一種提出了一種自適應集成學習模型。通過調整訓練數據的比例,可建立多棵決策樹。為了提高整體檢測效果,選擇了幾種基分類器,包括決策樹、隨機森林、KNN和DNN算法,并設計了一種集成自適應投票算法。實驗驗證,該方法有較好的檢測效果,而加入自適應投票算法的最終準確率更高。文獻[2]研究了基于深度學習的全方位入侵檢測系統 (IDS),用于監控和數據采集 (SCADA) 網絡,該系統能夠檢測時間上不相關和相關的攻擊,并通過集成方法結合 LSTM 和 FNN 進一步提高了 IDS 性能。文獻[3]設計了改進遺傳算法(GA)結合深度置信網絡(DBN)的入侵檢測模型,面對不同類型攻擊通過GA多次迭代,自適應生成最優隱藏層數和神經元數,使基于DBN的入侵檢測模型結構緊湊檢測率高。實驗表明改進的入侵檢測模型有效提高了檢測效果。文獻[4]中通過利用SDN流的概念,采用了分層和重量級入侵檢測系統(IDS)的體系結構,基于流的IDS使用基于受DARPA入侵檢測數據集訓練的支持向量機(SVM)的異常檢測算法。第一道防線檢測網絡上的任何入侵。當檢測到攻擊時,惡意流將鏡像到基于數據包的IDS,以進行進一步檢查和采取措施。文獻[5]針對當前復雜、高維的網絡環境給入侵檢測帶來的巨大壓力,分別構建了基于主成分分析-BP神經網絡(PCA-BP)和深度置信網絡(DBN)的入侵檢測模型,并通過實驗評估兩種檢測模型的效果,結果表明深度信念網絡在特征學習方面具有獨特的優勢和良好的性能。

針對降低入侵檢測的誤報率、入侵數據流特征差異性較大等問題,本文提出一種基于LightGBM算法的入侵檢測方法,并對網格搜索算法進行改進,提高網格搜索算法優化模型參數的效率。

一、算法原理

LightGBM(Light Gradient Boosting Machine)是微軟亞洲研究院2017年1月在GitHub上公布的一個開源、快速、高效的基于決策樹算法的提升 (GBDT、GBRT、GBM和MART)框架[5]。在各種應用場景和各大競賽中,XGBoost已經被證明是一種非常高效熱門的分類算法,但LightGBM是一種更加準確高效的新算法,它在保證準確率的前提下,內存占用下降了大約3倍,速度比XGBoost提升了近10倍。

LightGBM是基于 Histogram 的決策樹算法,采用最優的按葉子分裂的學習方法(Leaf- wise Learning),然而其它的提升算法分裂樹通常不采用這種方法,而是采用按層分裂的學習方法(Level-wise Learning)。

1. Level-wise Learning處理一次數據同時可分裂同一層的葉子,因此可實現多線程優化,并能較好控制模型的復雜度,不易過擬合。但實際上因為很多葉子的分裂增益較低,沒必要進行搜索和分裂,而Level-wise又不加區別的分裂同一層的葉子,這就增加了很多沒必要的計算成本。

2. Leaf- wise Learning是每次從當前所有葉子中,找到分裂增益最大的進行分裂,然后重復此步驟。因此在分裂次數相同時,Leaf-wise可降低更多誤差,效率更高。但有一個明顯缺點:生成的決策樹可能深度過大,產生過擬合。因此LightGBM在Leaf-wise上增加最大深度限制,保證高效率同時防止過擬合,使算法更快速有效,因此有更高的精度,同時支持并行學習也會占用更小運行內存。而其他任何已存在的提升算法都很難做到。

二、改進網格搜索算法

網格搜索算法一般用來優化模型的參數,但對于一些參數多,取值范圍較大的模型來說,網格搜索會很耗時。因此,本文提出了一種改進的網格搜索算法,保證優化模型參數效果的同時提高效率。

網格搜索算法是網格化處理作為變量的區域,即將算法參數可能取值的所有排列組合結果生成“網格”。然后采用窮舉法計算運行所有的網格點,尋找出滿足約束函數的目標函數值,最后通過比較得到最優點[6]。由于計算所有的網格點耗費了大量計算時間,因此為提高計算效率,本文提出一種大范圍尋優,小范圍求解的方法。

在保證LightGBM算法性能得到提高的前提下,也要考慮到每棵決策樹的準確性和樹的多樣性。在本文中使用改進的網格搜索算法尋求LightGBM最優參數,選用模型的準確率作為目標函數值。改進網格搜索方法的具體步驟如下:

1.確定需要優化的參數,相應的參數就是網格上的點,設定較長的網格間距來劃分網格;

2.將網格上的每一組參數全部遍歷一次,采用LightGBM算法的準確率作為評價標準,進行初步的大范圍尋優;

3.選擇準確率最高即誤差最小的一組數據,繼續縮短網格間距進行參數優化。若袋外分數或網格間距滿足要求,則輸出結果,否則重復上述步驟。

三、實驗

3.1 優化參數

在建模的參數調優時,采用改進的網格搜索算法快速高效的調參。以參數“LightGBM中決策樹最大深度md”和“單棵樹的葉子數量ml為例”為例,采用改進的網格搜索算法對決策樹參數進行優化。首先在進行大間距初步搜索,md的取值范圍確定為0

由上表可知最優結果為md =11,ml =40時,此時準確率為0.816,成正比例增長,所以繼續以小間距細分網格,將md的取值范圍確定為9< md <15,網格間距設定為2;ml的取值范圍確定為29

再次細分網格的結果為md =10,ml =36時,準確率為0.862,已經趨于穩定。由此可初步確定md和ml兩個參數的取值,另外模型的其他參數也通過此方法求得模型的最優參數。

3.2 模型評價指標

在對本文的入侵檢測模型進行評估時,主要采用了模型的精確率(Pre)、AUC(Area under the Curve of ROC)值、F1值和誤報率(FPR)等指標。AUC值可以更直觀的體現出ROC曲線所表達的結果,ROC曲線表示模型分類能力,AUC值就越大則ROC曲線就越高,說明模型的預測精度高。F1值兼顧了分類模型的準確率和召回率。誤報率表示被錯分到正常樣本類別的負樣本,在全部負樣本的所占比例,是入侵檢測模型的重要評估指標之一。

3.3 實驗結果分析

本文采用 OpenDaylight作為控制器,Mininet在VMware Workstation pro上運行的 Ubuntul6.04操作系統進行。所有的實驗均在CPU為2 CPU Cores i5-8265U,1.80GHZ,內存為8G的計算機上運行,使用Python3.5構建代碼進行實驗。同時,為了增加本文方法的說服力和對比性,加入隨機森林(Random Forest,RF)、XGBoost、邏輯回歸(Logistic Regression,LR)、支持向量機(Support Vector Machine,SVM)和長短期記憶人工神經網絡(Long Short-Term Memory,LSTM)算法與本文方法進行比較。實驗結果如表3所示:

由上表各項模型評價指標可知,邏輯回歸模型的整體性能最弱,各項性能指標最低。同屬集成學習的隨機森林、XGBoost和LightGBM模型中,隨機森林模型的整體性能最弱,但強于邏輯回歸和SVM模型;XGBoost模型的性能中等,優于邏輯回歸、隨機森林和SVM模型。SVM模型的各項評價指標強于邏輯回歸模型,但比其他模型較差。LSTM模型的性能僅次于LightGBM模型。由此可知,基于LightGBM算法的入侵檢測模型性能最好。

另外,本文分別測試了幾種模型在各種類型攻擊下的入侵檢測精確率,實驗結果如表4所示:

由表4各種類型檢測結果可知,LSTM模型和XGBoost模型的入侵檢測水平基本持平,隨機森林模型稍次之,LightGBM模型對Normal、Probe、U2R、R2L和DDos的幾種入侵檢測效果最好,說明本文所提基于LightGBM算法的入侵檢測模型具有良好的實際應用效果。

通過觀察入侵檢測模型的ROC曲線圖和AUC曲線下面積來對比幾種不同模型的分類性能。其中黑色實線為LightGBM算法的ROC曲線,LSTM算法的ROC曲線用黃色虛線表示,綠色實線代表XGBoost算法,黑色虛線代表隨機森林算法,藍色點虛線代表SVM算法,紅色點劃線代表LR算法,從圖1中可以看出基于LightGBM算法的入侵檢測模型ROC曲線明顯高于另外幾種模型的曲線圖,同樣,AUC值(曲線下面積值)最大,效果更優,說明模型的分類能力較好。

另外,為了驗證網格搜索算法改進前后的效果,在此額外引入KS(Kolmogorov-Smirnov)值和KS曲線圖(用采用默認參數值和采用改進網格搜索算法優化參數的C5.0進行對比,此處不加入其他幾種算法做比較的目的是因為C5.0模型的性能最好)。KS值越大,說明模型的預測準確性越好,KS>0.2時,模型就有較好的預測準確性。通過對比KS值和KS曲線圖可以體現出經過改進的網格搜索算法的有效性,采用默認參數值的LightGBM模型的KS值為0.47,采用優化參數后的LightGBM模型的KS值為0.59。圖2為LightGBM模型默認參數值的KS曲線圖。圖3為KS曲線對比圖,其中藍色虛線和藍色實現為默認參數值的KS曲線圖,黑色實線和黑色虛線為最優參數值組合的KS曲線圖。

通過實驗結果對比分析,LightGBM算法的入侵檢測精確率為0.9887,F1值為0.9726,AUC值為0.9837??傮w檢測效果優于其他集成學習算法并且同樣優于LSTM、LR和SVM算法。說明了本文所提方法的有效性。

四、結束語

本文針對降低入侵檢測的誤報率、入侵數據流特征差異性較大等問題,提出一種基于LightGBM算法的入侵檢測模型,并通過實驗對比了幾種集成學習算法和其他幾種機器學習算法的檢測效果,另外本文對網格搜索算法進行了改進,實驗證明基于LightGBM算法的入侵檢測模型性能優于其他幾種集成學習算法,同樣優于其他幾種對比算法,同時提高了優化模型參數的效率,證明了改進網格搜索算法的有效性。

參? 考? 文? 獻

[1] X Gao, Shan C, Hu C, et al. An Adaptive Ensemble Machine Learning Model for Intrusion Detection[J]. IEEE Access, 2019, 7:82512-82521.

[2] Gao J, Gan L, Buschendorf F, et al. Omni SCADA Intrusion Detection Using Deep Learning Algorithms[J]. 2019.

[3] Zhang Y, Li P, Wang X. Intrusion Detection for IoT Based on Improved Genetic Algorithm and Deep Belief Network[J]. IEEE Access, 2019:1-1.

[4] Q. Schueller, K. Basu, M. Younas, M. Patel and F. Ball, “A Hierarchical Intrusion Detection System using Support Vector Machine for SDN Network in Cloud Data Center,” 2018 28th International Telecommunication Networks and Applications Conference (ITNAC), Sydney, NSW, 2018, pp. 1-6, doi: 10.1109/ATNAC.2018.8615255.

[5] Duan T, Tian Y, Zhang H, et al. Intelligent Processing of Intrusion Detection Data[J]. IEEE Access, 2020, PP(99):1-1.

[6] Perez-Diaz J A, Valdovinos I A, Choo K, et al. A Flexible SDN-based Architecture for Identifying and Mitigating Low-Rate DDoS Attacks using Machine Learning[J]. IEEE Access, 2020, PP(99):1-1.

猜你喜歡
入侵檢測
多Agent的創新網絡入侵檢測方法仿真研究
基于入侵檢測的數據流挖掘和識別技術應用
藝術類院校高效存儲系統的設計
基于關聯規則的計算機入侵檢測方法
無線傳感器網絡發展歷史及安全需求及技術挑戰
無線傳感器網絡入侵檢測系統綜述
人工神經網絡的改進及其在入侵檢測中的應用
基于Φ—OTDR的分布式入侵檢測系統的應用綜述
一種基于數據融合的新的入侵檢測框架
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合