?

密文惡意流量智能分類研究綜述

2023-07-17 14:50劉紫萱吳魏
計算機應用文摘·觸控 2023年13期
關鍵詞:機器學習

劉紫萱 吳魏

摘要:隨著加密流量技術的快速發展,越來越多網絡攻擊行為利用加密偽裝逃脫檢測。針對加密惡意流量檢測問題,文章對現有的基于機器學習的密文惡意流量分類方法進行了梳理,討論了這些方法的分類效果和優缺點,總結了現有方法的不足.為密文惡意流量智能分類技術的發展提供了一定的借鑒。

關鍵詞:密文惡意流量分類;機器學習;加密偽裝

中圖法分類號:TP393 文獻標識碼:A

1 引言

近年來,學術界和工業界常用的惡意流量分類技術主要分為以下幾種。一是使用端口號進行流量檢測,這種方法比較簡單,但是隨著新的應用程序不斷涌現,使用者可使用熟知端口號掩蓋或使用非注冊端口號,從而導致該方法檢測性能顯著下降。二是基于深度報文檢測的惡意流量分類方法分類準確率高,但是特征提取難度大,且難以處理加密流量。這些傳統的流量分類方法在加密流量廣泛應用的情況下,檢測性能受到了較大的影響。

隨著機器學習的快速發展,出現了基于機器學習的惡意流量分類方法,其分類準確率較高且能夠處理加密流量。目前,常用于惡意流量分類的機器學習算法有隨機森林、k 近鄰、決策樹、邏輯回歸等。

然而,這些基于機器學習的惡意流量分類方法對輸入模型的特征有較大的依賴性,其性能優劣受到特征提取和特征工程的限制,從而影響了該類方法在實際場景下的適用性。針對上述惡意流量分類方法存在的不足,本文對現有的基于機器學習的密文惡意流量分類方法進行了梳理,討論了不同方法的效果和優缺點,并總結了現有方法的不足。

2 基于機器學習的密文惡意流量分類

近年來,機器學習被廣泛應用于多個領域,如計算機視覺、自然語言處理等。此外,研究人員在網絡安全領域也將機器學習技術應用于網絡流量分類等任務中,以達到實現自動化流量分類的目的。目前,常用于流量分類的機器學習算法有隨機森林、k 近鄰、決策樹、邏輯回歸算法等。下文將對使用上述算法實現密文惡意流量分類的文獻進行總結和梳理。

2.1 基于隨機森林的密文流量分類方法

在密文惡意流量分類研究中,隨機森林(RandomForest)是常用的一種機器學習方法,在流量分類方面有比較具體的體現,而且它還可以用于流量特征的選擇,可以選擇出流量重要特征,以提高流量分類的準確率。

文獻[1]對10 種基于機器學習的加密惡意流量檢測算法進行了對比分析,包括隨機森林、k 近鄰、線性回歸等算法,設計了一種基于機器學習的加密惡意流量檢測技術的通用框架,同時對高頻出現的特征進行總結,進一步優化了統計特征集(FOS 特征集),提出了基于隨機森林算法和FOS 特征集組合的檢測模型。

文獻[2]針對加密惡意軟件流量問題,在以文獻標準特征集中22 個常見特征和專家專為加密網絡會話定制的319 個增強特征為特征集的基礎上,對比了用于加密惡意軟件流量分類的6 種常見的機器學習算法,包括隨機森林、決策樹、支持向量機等算法,得出隨機森林集成方法優于其他5 種算法。

為解決網絡入侵檢測中數據不平衡的多分類問題,周杰英等[3] 提出了一種融合隨機森林模型進行特征轉換、使用梯度提升決策樹模型進行分類的入侵檢測模型框架RF?GBDT,其具有預測精度較高、收斂速度較快以及泛化性能好的特點,可以較好地解決網絡入侵檢測中數據不平衡的多分類問題。

文獻[4]針對高維數據限制算法泛化能力從而影響網絡入侵檢測能力的問題,提出了一種新的基于包裝的特征選擇算法,即禁忌搜索?隨機森林(TS?RF),其中禁忌搜索進行特征搜索與選擇,隨機森林作為學習方法。該算法不僅提高了分類器精度,而且將特征空間減少了60%以上,降低了模型的計算復雜性。

文獻[5]針對傳統基于深度包分析的加密惡意流量檢測方法帶來的精度下降和實時性不足等問題,提出了一種結合多特征的加密惡意流量檢測方法,而且通過對比隨機森林、邏輯回歸、決策樹等4 種機器學習算法,得出分類效果最好的是隨機森林算法的結論。

2.2 基于k 近鄰的密文流量分類方法

在流量分類領域中,還有一種機器學習方法被頻繁使用,那就是k 近鄰節點算法(kNN)。它同隨機森林算法一樣,常用于分類任務,在流量分類任務中發揮著重要的作用。該算法的思路簡單直觀:若要判斷一個樣本所屬的類別,只需確定在特征空間中與它最鄰近的k 個樣本大多數所屬的類別,則該樣本也屬于這一類別。簡而言之,該方法在分類決策上只依據最近鄰的k 個樣本的類別來決定待分類的樣本所屬類別。

文獻[6]針對基于傳統復雜特征的惡意流量檢測方法檢測率日益降低的問題,提出了一種使用TCP /IP 數據包側信道特征的惡意流量檢測方法,該方法的主要優點是:可以使用較少的特征集和較少的數據集同時,在較短的時間內完成惡意流量檢測。在此基礎上,研究人員還對比了包括k 近鄰、支持向量機、邏輯回歸等在內的7 種機器學習算法,發現k 近鄰算法的性能較好,其提供了一種基于TCP / IP 數據包側信道特征與k 近鄰算法的惡意流量檢測方法新思路。

2.3 基于決策樹的密文流量分類方法

除了上文提到的基于隨機森林和k 近鄰算法的密文惡意流量分類方法,目前還有許多其他機器學習方法可以實現密文惡意流量分類,雖然這些機器學習方法少見,但是分類結果也有意想不到的準確率。決策樹就是代表方法之一,它是基于Boosting 框架的主流集成算法,也是隨機森林的基本組成,包括XGBoost和LightGBM。

文獻[7]針對流量加密影響惡意流量特征分析從而影響檢測效果的問題,對比了使用XGBoost、隨機森林、支持向量機3 種機器學習算法區分惡意加密http流量和良性加密流量的性能,得出XGBoost 性能較優的結論,同時驗證了基于模型自身選擇特征優于基于人為專家選擇特征,最終提出了在不解密流量的情況下密文惡意流量分類方法,即基于模型自身選擇特征的XGBoost 密文惡意流量分類算法。

文獻[8]針對流量數據不平衡并且深度神經網絡檢測方法的訓練和檢測時間較長等問題,提出了一種基于自適應合成(ADASYN)過采樣技術和LightGBM的網絡入侵檢測系統,其中ADASYN 過采樣技術增加了少數攻擊樣本,以解決由于訓練數據不平衡導致的少數攻擊檢測率低的問題。LightGBM 集成模型進一步降低了系統的時間復雜度,同時確保了檢測的準確性。

2.4 基于邏輯回歸的密文流量分類方法

邏輯回歸是一個分類模型,廣泛應用于各個領域,包括機器學習、醫學和社會科學。其最為突出的特點就是模型簡單和模型的可解釋性強。邏輯回歸的優點在于實現簡單、易于理解,同時計算代價低、速度快、存儲資源低,但是也存在缺點,如易欠擬合、分類精度不高等。

文獻[9]針對TLS 協議為傳統網絡入侵檢測方法帶來的新挑戰進行了詳細分析,對18 個惡意軟件家族和企業應用在TLS 協議中的使用進行了深入研究,發現企業應用通常使用較新版本的TLS 協議,而惡意軟件一般使用較老版本的TLS 協議和較弱的密碼參數?;诖?,本文提出了一種基于傳統特征與TLS 特征結合的L1 邏輯回歸密文惡意流量分類方法。

文獻[10]針對加密惡意流量包含的威脅給網絡入侵檢測帶來挑戰這一問題,在沙盒中自收集的數據集上,通過對比實驗證明了上下文流數據可用于流量分類并且有較好的效果,證明了L1 邏輯回歸分類器的準確性。最終提出了基于TLS 握手元數據和上下文流等特征與L1 邏輯回歸分類器相結合的監督機器學習流量分類方法。

目前,基于機器學習的惡意流量分類方法仍存在一定的局限性。例如,流量數據集不平衡和流量特征代表性不足影響了分類器的準確性,以及當前基于機器學習的流量檢測方法無法有效應對未知網絡攻擊檢測。這些問題影響了密文惡意流量智能檢測技術的發展,應著重加以解決。

3 結束語

本文對現有的基于機器學習的密文惡意流量分類方法進行了梳理和總結,討論了不同機器學習算法,如隨機森林、k 近鄰等算法的分類效果和優缺點,總結了現有惡意流量分類方法存在的不足,如流量數據非均衡、分類特征代表性不足、未知網絡攻擊檢測難等,進而為該領域技術的發展提供了一定的參考和借鑒。

參考文獻:

[1] WANG Z,FOK K W,THING V L L. Machine learning forencrypted malicious traffic detection: Approaches, datasetsand comparative study[J].Computers & Security,2022,113:102542.

[2] ANDERSON B,MCGREW D.Machine learning for encryptedmalware traffic classification:accounting for noisy labels andnon?stationarity[C]∥Proceedings of the 23rd ACM SIGKDDInternational Conference on knowledge discovery and datamining,2017:1723?1732.

[3] 周杰英,賀鵬飛,邱榮發,等.融合隨機森林和梯度提升樹的入侵檢測研究[J].軟件學報,2021,32(10):3254?3265.

[4] NAZIR A,KHAN R A. A novel combinatorial optimizationbased feature selection method for network intrusion detection[J].Computers & Security,2021,102:102164.

[5] 李慧慧,張士庚,宋虹,等.結合多特征識別的惡意加密流量檢測方法[J].信息安全學報,2021,6(2):129?142.

[6] STERGIOPOULOS G, TALAVARI A, BITSIKAS E, et al.Automatic detection of various malicious traffic using sidechannel features on TCP packets[C]∥European Symposiumon Research in Computer Security, 2018:346?362.

[7] SHEKHAWAT A S,TROIA F D,STAMP M.Feature analysisof encrypted malicious traffic [ J]. Expert Systems WithApplications,2019,125:130?141.

[8] LIU J M,GAO Y B,HU F J.A fast network intrusion detectionsystem using adaptive synthetic oversampling and LightGBM[J].Computers & Security,2021,106:33?48.

[9] ANDERSON B,PAUL S,MCGREW D.Deciphering malwaresuse of TLS (without decryption) [J]. Journal of ComputerVirology and Hacking Techniques,2018,14(3):195?211.

[10] ANDERSON B,MCGREW D.Identifying encrypted malwaretraffic with contextual flow data[C] ∥ Proceedings of the2016 ACM workshop on artificial intelligence and security,2016:35?46.

作者簡介:劉紫萱(2001—),本科,研究方向:計算機技術。

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網中“人工智能”的應用
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合