?

基于LUS-PSO權重優化的入侵檢測技術研究

2023-08-21 02:03臧世偉高麗婷殷欣欣
河北建筑工程學院學報 2023年2期
關鍵詞:分類器準確率權重

臧世偉 高麗婷 黃 濤 殷欣欣

(河北建筑工程學院,河北 張家口 075000)

0 引 言

近年來,網絡安全已經成為一個非常重要的問題,關系到人們生活的方方面面.網絡安全的第一道防線,防火墻已是最普遍的防護方式.但是隨著攻擊技術不斷迭代和攻擊工具的復雜多變,現有的防火墻方式已經無法滿足網絡安全的需求.因此,網絡的防護需要一種更加有效的、更加多樣的方式[1].現如今,集成學習已經得到很好的研究,并且大量用于提高一些分類任務的準確率.現在,已有的集成方法包括平均合成器、中位數合成器、最大合成器、多數投票和加權多數投票(WMV).由于其概念簡單、直觀和在實踐中的有效性,WMV是迄今為止最受歡迎的[2].

本文提出基于LUS-PSO權重優化的入侵檢測模型.該模型先訓練6個Classfier1和6個Classfier2弱分類的分類器.然后,使用粒子群算法、元優化粒子群算法和加權多數算法(WMA)方法的集成學習模型.這些模型綜合12個分類器的意見,得出最后的決定.最后,實驗證明該模型在攻擊檢測的準確性和誤報率等方面更優.

1 入侵檢測模型

本文提出基于LUS-PSO權重優化的入侵檢測模型,其模型如圖1所示.

圖1 入侵檢測模型

其中,該入侵檢測模型包括數據預處理和攻擊檢測2個部分.

1.1 數據預處理

KDD Cup數據集是入侵檢測中最常用的數據集,常用于評價入侵檢測算法的性能.但是如今,研究人員已經證實最簡單的機器學習算法在訓練集上已經能達到95%的檢測正確率,并且在測試集上的準確率也能達到88%.大量實驗證明了KDD Cup數據集存在以下兩個缺陷:一是訓練集中存在大量的重復數據,導致分類算法容易過擬合;二是測試集中的大部分數據與訓練集中數據重復,使得在算法比較時,說服力不足[3].本文使用的數據集是NSL-KDD數據集,該數據集完美解決這兩個缺點.

NSL-KDD數據集中的每條數據都具有41條特征,其中包括網絡協議、目標主機的網絡服務類型和數據流量等特征.這些特征有字符型和數字型,但機器學習只能處理數字型,因此NSL-KDD數據集需要進行數值標準化和數值歸一化的處理[4].

1.2 攻擊檢測

本文提出一種LUS-PSO權重優化的入侵檢測模型.通過權重模型生成分類器的權值,得出最后的決定.

1.2.1 Stacking集成學習

集成學習可以將不同類型的單一機器學習算法組合,通過利用組合的策略,對不同的算法進行層次劃分,然后在不同的層次中進行訓練,最后整合所有的單一模型的效果,提高預測的能力[5].因此,集成學習算法能在很多方面都能得到很好的應用.Stacking集成學習框架的基本原理如圖2所示,在圖2中,該框架劃分為兩個結構.第一層中的模型被稱為弱分類器,這里的弱分類器需要對訓練集進行訓練,然后將結果輸出到第二層學習器,得到最終的輸出.

圖2 Stacking模型原理

Stacking集成學習中,訓練集樣本進入到模型以后,首先進行隨機劃分,然后輸入到不同的分類器中進行建模.分類器在建模后傳遞預測結果至第二層分類器中,而元分類器則通過輸入信號估計最后的結果.在整理結果的時候,Stacking主要使用對元分類器的學習能力加以優化,從而增強了模型的返回能力和擴充能力,并且通過嘗試使用不同的元分類器,也可以得到不同的學習效果.

由于不同的算法具有不同的置信度.因此,需要構建一個能平衡個別分類器在特定數據集上的弱分類器,為此引入加權的概念.加權多數投票的定義為:

(1)

式中:ωj為權值,y與Cj(x)是集成學習器預測標簽.

1.2.2 LUS-PSO權重優化

(1)局部單峰采樣

局部單峰采樣(LUS)方法也用于元優化器,以便于從PSO找到更好的參數.單峰函數是指有一個峰的函數[6],它可定義為:

定義:設f(x)是定義在[a,b]上的函數,若:

a.存在x*∈[a,b]使minx∈(a,b)f(x)=f(x*)

b.對任意的a≤x1

(2)粒子群優化算法

粒子群算法是一種常用機器學習參數優化的方法.其粒子將速度和位置作為評價指標.其流程如下:首先,初始化粒子的速度和位置,并在搜索空間中搜尋到每個粒子局部最優解,將其記為局部極值;然后局部極值共享給整個粒子群里的其他粒子,經與其他粒子對比,找到最優的局部極值,作為當前全局最優解;最后所有粒子根據當前局部最優解和整個粒子群共享的當前全局最優解來動態地調整速度和位置[7].

基于LUS-PSO權重優化算法原理如圖3所示.

圖3 基于LUS-PSO權重優化算法原理

LUS-PSO權重優化的基本流程如下所示:

Step2 針對m個訓練集,利用算法對分類器的連接權重值進行優化選擇,得到最優的弱分類器權值.

Step3 利用優化后的分類器對m個訓練集分別進行訓練,獲得第t次的權重集{ω1,ω2,…,ωt}.

Step4 記錄本次權重集{ω1,ω2,…,ωt},根據Step3得到的入侵檢測模型對m個訓練集的預測誤差絕對值和小于設定值,或達到最大迭代次數,算法結束,跳出迭代進入Step 6;否則進入Step 5.

Step5 根據入侵檢測模型對m個訓練集的預測誤差絕對值和,更新m個訓練的權重d1,d2,…,dm,生成新的樣本,返回Step 2,進行迭代.

Step6 得到最終的預測模型權重集{ω1,ω2,…,ωt}.

2 實驗結果及分析

2.1 實驗環境

為了驗證算法的有效性,按照本文提出的LUS-PSO加權優化算法進行計算機仿真實驗,實驗平臺為Python3.8.3,硬件內存為16GB,操作系統為Windows 10.

2.2 實驗評估

混淆矩陣多用于評價分類結果的優劣[8],其定義如表1:

表1 混淆矩陣

其評估指標的計算公式如下:

(2)

(3)

(4)

(5)

本文選用準確率作為評價入侵檢測模型的指標,從不同的角度對LUS-PSO權重優化模型性能進行評估.

2.3 實驗結果分析

首先,這里選用比較熱門的AdaBoost、Random Forest、SVM和KNN這4種機器學習算法,其對應分類準確率參見表2內容.加權多數投票(WMV)是集成學習中最常見的一種加權機制[9],其對應分類準確率如表3所示.

表2 4種分類器的分類準確率結果

表3 權重多數投票的分類準確率結果

但是選擇合適的權值影響集成學習的精確度.由此,本文提出基于LUS-PSO權值優化的模型.LUS-PSO權重優化模型結合集成學習方法,經過處理過后的數據,進而構建模型.

本文將AdaBoost、Random Forest、SVM和KNN算法套入入侵檢測模型,并且定義SVM-KNN和AdaBoost-Random Forest兩個融合分類器的集成學習,其對應分類準確率參見表4內容.

表4 LUS-PSO的分類準確率結果

由表2可知,SVM和KNN算法在Dos、Normal和R2L樣本的分類準確率方面優勢略顯明顯.表3結果可以觀察到,相對于表2的4中機器學習算法,LUS-PSO權重優化的集成學習有較明顯的提升.對比表3,本文提出基于LUS-PSO權重優化的模型確實提升了分類的準確率.

3 結 論

本文提出一種基于LUS-PSO權重優化的方法.該方法使用粒子群算法和加權多數算法,選出適合的最優權重集,并且綜合已訓練的集成學習器,得出最后的決定.針對網絡中入侵行為攻擊強隱蔽、變化快和隨機性高的特點,該方法優于其他集成學習算法.但是本文只使用一種數據集,不具備更強的說服力.總的來說,該方法在網絡安全檢測中具有良好的有效性和優越性.

猜你喜歡
分類器準確率權重
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
權重常思“浮名輕”
高速公路車牌識別標識站準確率驗證法
為黨督政勤履職 代民行權重擔當
BP-GA光照分類器在車道線識別中的應用
基于公約式權重的截短線性分組碼盲識別方法
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合