?

基于網絡流量分析的自適應用戶行為識別技術

2024-01-06 04:03李國軍
浙江警察學院學報 2023年6期
關鍵詞:網絡流量符號化報文

楊 雪 李國軍 徐 博

隨著網絡技術的發展,Web應用隨之普及,電子商務、電子政務等相關網站給人們的生活帶來極大的便利。然而,Web技術也為社會帶來一些負面影響,不法分子常利用網站開展色情傳播、賭博或電信詐騙等違法犯罪活動。從網絡流量中自動關聯相應的Web應用已成為網絡管理員必備的一項技能。SSL/TLS等端到端加密協議能夠保護通信的具體內容但并未隱藏網絡流量中報文的長度、方向、時序等邊信息,因此仍會遭受利用。目前,網站指紋識別領域的研究人員通常利用機器學習算法分析加密網絡流量,識別用戶訪問的網頁/網站,(1)See FAIK A &JASLEEN K. Can Android Applications be Identified Using Only TCP/IP Headers of Their Launch Time Traffic. The 9th ACM Conference on Security and Privacy in Wireless and Mobile Networks, Darmstadt,2016:61-66. See Wang T, Cai X &Nithyanand R. Effective Attacks and Provable Defenses for Website Fingerprinting. The 23rd USENIX Security Symposium, California,2014:143-157.然而這些研究方法大都關注單個網頁(如網站主頁)的指紋識別,忽略頁面間的跳轉。而在現實場景中,用戶大都通過點擊超鏈接訪問Web應用各模塊,且觸發的網絡報文序列較長。本文利用網頁間跳轉信息構建“用戶—Web應用交互模式”,在未知網絡流量中識別用戶的行為,并應用于一種基于用戶角色和行為模式的Web應用程序識別框架。

國際權威調研機構Gartner的調查顯示,互聯網信息安全攻擊有75%發生在應用層而非網絡層上,即Web應用是黑客攻擊的主要目標。(2)See Gartner. Predicts 2022: Cyber-Physical Systems Security Critical Infrastructure in Focus.2022-01-26.https://www.gartner.com/en/doc/757423-predictive-analytics-cyber-security.2022-02-23.因此,從掌握網絡安全態勢的角度出發,網絡管理員或網絡審查機構也需具備從網絡流量自動關聯出用戶訪問的Web服務的能力。近年來,部分學者在這一研究領域提出解決方案。Ionescu和Keirstead提出一個識別框架,通過掃描用戶、Web應用之間的交互行為以及用戶訪問的網絡資源識別關聯的應用程序。(3)See Ionescu P, Keirstead J &Onut I. Automatic Traffic Classification of Web Applications and Services based on Dynamic Analysis. United States Patent,2019.與這些針對用戶是否訪問某一具體網頁或網站的方法相比,公安機關更需要一種能夠識別邏輯相似的Web應用的方法。

從頁面跳轉觸發的網絡流量中構建交互模式在Web應用識別領域具有現實意義。近年來,服務商提供的模板使網站的創建變得越來越簡單。(4)參見柏志安、廖健、曾劍平:《基于DOM樹與模板的自適應網絡信息抽取方法》,《計算機應用與軟件》2022年第8期。模板化建站加大了執法機關對不法網站的打擊難度,犯罪分子在網站被取締后仍可將其“改頭換面”(修改域名、標題、網頁圖片等),保留原來的業務繼續運營。例如,有新聞報道網警程某利用工作之便,在打擊賭博網站后將查獲的源代碼交給他人重新開設賭場獲利。因此,本文認為由同一模板派生出的Web應用即使具有不同的標題或圖片等外觀元素,但它們仍具有相似的底層功能邏輯,這些相對固定的功能邏輯可被視為該類Web應用的“基因”。

Web應用的功能邏輯通常以用戶和應用間的交互模式呈現,各類型的用戶具有不同的權限,可執行不同類型的操作。用戶在Web應用上執行的各類操作可用有向連接圖U=(V,E)表示。其中,頂點集合V表示用戶可執行的一系列動作,邊集合E則代表各動作間的跳轉。如圖1所示,一個Web應用可描述為不同用戶類型及其可執行的操作,圖中頂點vi代表用戶的某種行為,Pij則表示用戶行為由vi轉變為vj的概率。例如:某社交論壇包括注冊用戶和訪客兩種角色的用戶,同一角色的用戶往往呈現一定的行為模式(如注冊用戶通常會執行登錄、瀏覽、發帖等操作)。因此,從網絡流量中挖掘用戶與Web應用的交互模式,并在未知流量中識別用戶行為在Web應用識別領域具有應用價值。

圖1 Web應用模型

針對目前通過識別用戶訪問某個Web頁面(通常為網站主頁)判斷其是否訪問某Web應用,而實際的用戶行為往往涉及多個頁面間跳轉的問題,論文提出一種利用網絡流量報文分布信息的自適應用戶行為識別方法,借助生物信息學中廣泛使用的Profile Hidden Markov Model(5)See Eddy S R. Profile Hidden Markov Models. Bioinformatics,1998,14(9):755-763.模型從網頁跳轉觸發的網絡流量中挖掘用戶與Web應用間的交互模式,從未知網絡流量中識別用戶行為,并應用于一種基于用戶角色和行為模式的Web應用程序識別框架。

一、相關工作

功能各異的Web應用使得越來越多的用戶通過網絡使用金融、在線游戲和網絡購物等高級場景。網絡流量是用戶與Web應用間交互的重要載體,用戶執行的各類操作會觸發相應的網絡流量,同時可能泄露一些隱私數據(如聯系人、照片、位置等)。近年來,網絡流量分析技術越來越受到研究人員的關注。一方面,網絡管理人員可以通過網絡流量分析重構用戶的行為序列(6)See Xie G, Liofotou M &Karagiiannis T. ReSurf: Reconstructing Web-surfing Activity from Network Traffic. IFIP Networking Conference, New York,2013:1-9. See Neasbitt C, Perdisci R &Li K. ClickMiner: Towards Forensic Reconstruction of User-Behavior Interactions from Network Traces. The 2014 ACM SIGSAC Conference on Computer and Communications Security, Arizona,2014:1244-1255.、識別惡意軟件(7)參見高峰、鮑旭丹、劉敬:《WEID:一種基于信息量差加權集成的Android惡意軟件檢測方法》,《計算機應用與軟件》2022年第9期。See Wang W, Sun C S &Ye J N. A Method for TLS Malicious Traffic Identification based on Machine Learning. Advances in Science and Technology,2021,105:291-301.、提升網絡服務質量等(8)參見孫明瑋、司維超、董琪:《基于多維度數據的網絡服務質量的綜合評估研究》,《計算機科學》2021年第6A期。。另一方面,攻擊者通過網絡流量分析能夠獲取目標網絡中用戶訪問的Web應用(9)See Wang Y B, Xu H T &Guo Z H. snWF: Website Fingerprinting Attack by Ensembling the Snapshot of Deep Learning. IEEE Transactions on Information Forensics and Security,2022,17:1214-1226.、挖掘用戶網絡行為習慣(10)See Dai S, Tongaonkar A &Wang X. NetworkProfiler: Towards Automatic Fingerprinting of Android Apps. IEEE INFOCOM, Turin,2013:809-817.等隱私信息。國內外與本文相關的研究主要集中在網站指紋攻擊、網絡行為分析等領域。

(一)網站指紋攻擊

網站指紋攻擊(Website Fingerprinting Attack)能夠判斷用戶訪問了哪些網站或網頁,通過分析探知用戶隱私(如:興趣愛好、政治傾向等)。1998年,Cheng和Avnur(11)See Cheng H &Avnur R. Traffic Analysis of SSL Encrypted Web Browsing.1998-01-01.http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.3.1201. 2021-11-05.證實SSL無法抵御網絡流量分析,第一次提出網站指紋攻擊的概念。近年來,網站指紋攻擊得到研究者的廣泛關注,各種機器學習算法被應用到這一領域且取得了不錯的成果。

Cai等人(12)See Cai X, Zhang X &Joshi B. Touching from a Distance: Website Fingerprinting Attacks and Defenses. The 2012 ACM SIGSAC Conference on Computer and Communications Security, Raleigh,2012:605-616.使用隱馬爾可夫模型(Hidden Markov Model,HMM)對網站建模,HMM的各狀態對應網站的頁面或頁面類目。Hayes和Danezis(13)See Hayes J &Danezis G. K-fingerprinting: a Robust Scalable Website Fingerprinting Technique. The 25th USENIX Security Symposium, Austin,2016:1187-1203.提出從加密或匿名網絡流量中識別用戶訪問網頁的K-fingerprinting方法。Sirinam等人(14)See Sirinam P, Mathews N &Rahman M. Triplet Fingerprinting: More Practical and Portable Website Fingerprinting with N-Shot Learning. The 2019 ACM SIGSAC Conference on Computer and Communications Security, Colorado,2019:1131-1148.提出Triplet Fingerprinting方法,采用N-shot算法在減少收集、訓練網站指紋訓練集工作量的同時,降低不同網絡環境對攻擊效果的影響。FineWP(15)See Shen M, Liu Y &Zhu L. Fine-Grained Webpage Fingerprinting Using Only Packet Length Information of Encrypted Traffic. IEEE Transactions on Information Forensics and Security,2021,16:2046-2059.是一種細粒度網頁指紋提取工具,通過提取客戶與服務器交互時雙向網絡流量中報文長度作為特征向量訓練隨機森林、決策樹和KNN等機器學習分類器,在控制訓練開銷的同時獲得高識別率。以上研究大多考慮單一網頁,忽略用戶行為觸發的網頁間跳轉。Zhuo等人(16)See Zhuo Z, Zhang Y &Zhang Z. Website Fingerprinting Attack on Anonymity Networks Based on Profile Hidden Markov Model. IEEE Transactions on Information Forensics and Security,2018,13(5):1081-1095.驗證了PHMM能夠有效利用Web頁面間的跳轉信息提高網站識別的準確率。本文同樣借助PHMM能夠有效使用頁面跳轉信息這一特點構建“用戶—Web應用交互模式”,并提出一種利用網絡流量統計特征的自適應符號化算法。

(二)網絡行為分析

用戶訪問Web應用時觸發的網絡數據呈現不同模式,這使得在網絡流量中識別用戶行為成為可能。網絡行為分析可用于提升網絡服務質量或挖掘用戶隱私。

Conti等人(17)See Conti M, Mancini L &Spolaor R. Analyzing Android Encrypted Network Traffic to Identify User Actions. IEEE Transactions on Information Forensics and Security,2016,11(1):114-125.提出一個移動APP內的行為檢測框架,利用IP地址、TCP報文頭部等信息識別用戶在應用內的操作。他們使用動態時間規整(Dynamic Time Warping,DTW)和隨機森林算法挖掘行為模式。然而,動態時間規整算法在序列長度較長、兩段時間序列長度相當時計算效率低。Fu等(18)See Fu Y J, Xiong H &Lu X J. Service Usage Classification with Encrypted Internet Traffic in Mobile Messaging Apps. IEEE Transactions on Mobile Computing,2016,15(11):2851-2864.研究如何利用加密網絡流量對移動APP內的用戶行為進行分類。他們使用報文長度、時延以及時序依賴性等特征,將收集到的流量劃分為Session和Dialog兩個層次,再以Dialog為基本單位選擇報文長度序列和時間間隔序列開展用戶行為分類。

目前,網絡行為分析技術已從傳統網絡應用場景擴展到移動智能家居設備研究領域。PINGPONG(19)See Trimananda R, Varmaken J &Markopoulou A. Packet-Level Signatures for Smart Home Devices. The Network and Distributed System Security Symposium, California,2020:1-18.能夠自動從網絡流量中提取智能家居設備的指紋,識別各類動作(如開燈或關燈)。HoMonit(20)See Zhang W, Meng Y &Liu Y. HoMonit: Monitoring Smart Home Apps from Encrypted Traffic. The 2018 ACM SIGSAC Conference on Computer and Communications, Toronto,2018:1074-1088.通過分析智能家居設備產生的網絡流量判斷用戶在設備上的操作。Li和Feng等(21)See Li Q, Feng X &Wang R. Towards Fine-Grained Fingerprinting of Firmware in Online Embedded Devices. IEEE Conferences on Computer Communications, Hawaii,2018:2537-2545.采用自然語言處理技術和文檔對象模型分析固件鏡像文件系統的細微差別,進而提取指紋識別互聯網上的固件。他們的方法必須主動與固件交互,因而容易被感知。本文采用被動監聽的方法在網絡流量中識別用戶訪問Web應用的行為。

二、問題定義

定義1 用戶行為(UserAction)用戶為實現某一目的與Web應用間的某次交互活動。例如:用戶點擊某社交網站的登錄框,輸入賬號和密碼,點擊“登錄”按鈕登入該網站。

定義3 流量序列(TrafficSequence)用戶執行某一行為觸發的報文序列,流量序列TS是網絡流量F的子集,即:TS?F。

本文擬解決的問題:給定捕獲到的流量序列TS,判斷觸發該流量序列的用戶行為,即識別目標網絡內的用戶訪問某Web應用時執行的操作。

例如,某社交論壇允許用戶執行若干操作(注冊用戶通常會執行登錄、瀏覽、發布新帖、發表評論等操作),由于不同的用戶行為觸發的網絡流量具有不同的特點,可收集用戶與該論壇交互時產生的網絡流量,針對不同用戶操作分別訓練行為模型,并利用這些模型從未知網絡流量中識別用戶行為,進而判斷該未知網絡流量是否由用戶與某個特定Web應用之間的交互產生,即判斷目標網絡內的用戶是否訪問了某Web應用。

三、用戶行為識別框架

本節介紹從網絡流量中構建用戶行為模型的方法。首先收集用戶與目標Web應用交互時產生的網絡流量,按一定規則過濾冗余信息。然后,提取報文長度、方向、時間戳等邊信息構造流量序列特征向量,挖掘用戶與Web應用的交互行為模型。本文提出的用戶行為建模及識別框架如圖2所示。

圖2 用戶行為建模及識別框架

(一)網絡流量收集與預處理

在可控小規模網絡中利用計算機作為AP記錄用戶訪問Web應用觸發的網絡流量,圖3展示了網絡流量收集方式。在流量收集的過程中,除了屏蔽用戶訪問目標Web應用以外的其他上網行為產生的流量,還記錄了用戶與Web應用交互時每種行為的開始時間與結束時間,以便盡可能過濾掉異常流量。

圖3 網絡流量收集

網絡流量預處理階段包括三個步驟:流量過濾、流量序列化以及流量切分。首先要過濾非必需的網絡流量,其次是將流量數據轉為序列化的特征數據以便后續處理,最后將流量切分以區分不同行為對應的不同網絡流量。

1.流量過濾。捕獲到的網絡流量中不可避免存在不相關流量,例如,數據傳輸過程中丟失、損壞的重傳數據包;不攜帶負載僅在數據傳輸過程中起到確認作用的ACK數據報文、用于TCP握手過程中建立連接和斷開連接的數據報文等。在收集網絡流量時,還不可避免地會存在操作系統產生的背景流量、網絡通訊過程中所需要的網絡流量以及一些非關鍵性網絡流量,如ARP、DHCP等報文。此外,為防止其他用戶連接至相同Wi-Fi訪問點,利用IP地址過濾非目標用戶產生的流量。

2.流量序列化。流量序列化指將收集到的網絡流量轉化為便于計算機處理的數字序列。本文提取網絡流量中各報文的長度、方向、時間戳等邊信息將流量數據轉化為數字序列。時間戳是切分網絡流量的依據,可用來計算流量中報文間的時間間隔,從網絡流量中切分出不同的網絡行為子序列。

3.流量切分。利用IP地址、cookies等信息區分不同用戶的網絡流量,對于部署了網絡地址轉換(Network Address Translation,NAT)的網絡,可使用文獻(23)See Verde N, Ateniese G &Gabrielli E. No NAT’d User Left Behind: Fingerprinting Users Behind NAT from NetFlow Records Alone. The 34th IEEE International Conference on Distributed Computing Systems, Madrid,2014:218-227.提出的方法從流量中區分不同的用戶。為方便描述用戶操作觸發的網絡報文序列,給出“會話”和“交互流量”的定義。

網絡流量是用戶與Web應用交互時產生的,收集到的網絡流量中混合了用戶的多種行為,流量切分的目的就是要從中切分出用戶行為子序列。通常的做法是先去除一整段網絡流量中的背景流量,然后按固定時間間隔閾值將流量切分成多個會話,再將每個會話切分成若干段子序列,每段子序列代表用戶的一種行為。

首先將序列化后的報文序列以固定時間間隔切分為多個會話,每個會話記為Session。然后將每個Session切分為固定時長的片段,即為Burst。由于每個Session可能包含若干連續的Burst,而每個用戶動作產生的網絡報文量及持續時間不同,時間閾值的選取非常重要。本文在后續的實驗中將固定時長閾值設置為4.5秒,以期獲得最佳分類效果。

經過流量預處理操作后,能夠得到不同用戶行為觸發的報文序列,可建立模型從中識別這些報文序列對應的“用戶—Web應用”交互類型。

(二)用戶行為模式挖掘

1.PHMM模型。PHMM模型在計算生物學領域被廣泛應用于識別基因序列的家族關系。研究者發現,同一家族的基因序列間雖然存在一些差異,但序列中某些位置的基因表達與其他位置相比更加固定。與基因序列類似,同一用戶動作(如多次登錄同一Web應用)觸發的網絡流量雖然會隨著網絡環境變化而發生波動,但其攜帶的關鍵信息不會改變。例如,Web應用的頁面往往包含CSS文件、圖片等元素,點擊頁面觸發的網絡流量中包含唯一標識這些元素的信息。圖4展示PHMM模型,插入(Ii)和刪除(Di)狀態使模型對序列的波動不敏感且能有效利用序列的位置信息。本文采用PHMM模型訓練用戶與Web應用間的交互模式。

圖4 PHMM模型示例

2.序列符號化。由于各類用戶行為通常涉及頁面間的跳轉,生成的報文序列較長。為盡可能在保留原始流量信息的條件下降低模型的復雜度,需要在構建用戶行為模型之前對流量序列執行符號化操作。符號化的目標是用有限的符號集盡可能多保留原序列的有效信息。符號化操作將流量序列由數字序列轉換為符號序列,如“QRJPQNNNCBBBB…”。流量序列轉換為符號序列的算法實現過程如下:

輸入:流量序列s

輸出:符號序列seq

1.l←0,sign←0,seq←null;

2.fors中單個報文pdo

3.l←報文p的長度len(p);

4.ifp是出站報文then

5.sign←-1;

6.else

7.sign←1;

8.endif

9.l←l×sign;

10.seq←seq+l對應的符號

11.endfor

12.returnseq

符號化是重要的時間序列分析方法,如何選擇合適的符號化策略一直以來都是一個難題。符號化指把實數序列轉換成符號序列,依據序列的數值特征對該序列做粗糙化處理,再將獲得的符號序列做各種推理計算,理解系統特征,因此符號化強調“先劃分、后理解”(25)參見向馗、蔣靜坪:《時間序列的符號化方法研究》,《模式識別與人工智能》2007年第2期。。符號化方法大致可分為直接法和小波空間法兩種。直接法包括對數值序列不進行預處理、直接根據序列數值特征進行符號劃分的靜態法、動態法及綜合法等。小波空間法則先對序列做適當變換,然后再進行劃分。

在網絡流量分析領域,為實現流量序列符號化,有研究(26)See Zhuo Z, Zhang Y &Zhang Z. Website Fingerprinting Attack on Anonymity Networks Based on Profile Hidden Markov Model. IEEE Transactions on Information Forensics and Security,2018,13(5):1081-1095.采用等間距符號化算法將報文長度序列劃分為若干等長的區間,為每個區間分配不同的符號。等間距符號化算法屬于直接法的一種,該算法簡單、易于實現,時間復雜度為O(N),其中N為待處理的網絡流量數據集中的報文數量。等間距符號化算法不考慮報文分布,為報文聚集和稀疏的區間分配同樣多的符號。例如,圖5展示了用戶瀏覽某社交論壇時觸發的網絡流量報文長度分布情況,其中的數值符號表示報文方向(出站/入站)。由圖可見,[0,600]和[900,1500]區間內報文數量與其他區間相比明顯較少。等間距算法在分配符號時忽略各區間內報文的數量,因此無法更細致地表示報文密集的區間。

圖5 等間距符號化算法忽略網絡報文長度分布信息

除等間距符號化算法外,有研究(27)See He G, Yang M &Luo J. A Novel Application Classification Attack Against Tor. Concurrency and Computation: Practice and Experience,2015,27(18):5640-5661.采用K-means聚類算法實現流量序列符號化,該算法的時間復雜度為O(NKt),其中N代表待處理的網絡流量數據集中的報文數量,K為聚類個數,t是聚類的迭代次數。K-means算法能夠利用報文序列的分布信息,但在處理大量數據時耗費時間較長。

由此可見,無論是等間距符號化算法還是K-means聚類方法都存在明顯的缺陷。在前一種方法中,區間長度的劃分由用戶隨機指定,極端情況下長度落在某些區間內的報文數量可能會很少甚至沒有,但算法仍需為這些“稀疏”區間分配符號。而對于那些報文比較密集的區間,算法也無法為它們分配更多的符號以體現序列的統計分布特征。同樣,K-means算法雖然是對報文長度序列進行聚類,但用戶無法控制聚類過程,也無法確定該算法將原序列劃分K個類別后生成的符號序列是否能最大限度地描述原始序列。

因此,針對現有符號化算法存在的問題,本文提出一種在限定符號集大小的前提下考慮網絡流量報文分布的自適應符號化方法。

(1)自適應符號化算法。本節提出一種自適應符號化算法,在符號集大小固定的情況下,尋找原始流量序列符號化后精度損失最少的區間劃分方法。由于流量序列中各元素的取值范圍是[-1500,1500],待解決的問題可轉換為在符號集合大小為K的條件下,即將流量序列劃分為K個區間時,確定合適的區間長度τ1,τ2,…,τK。

由于原序列中任意一個元素值xi都有對應的出現概率pi,符號化前后序列間的距離D可由公式(1)表示。

(1)

其中E(X)是原流量序列的期望值,E(Iτi)是流量序列在第i個區間上的期望值,與區間長度τi有關。假設共有Nτi個報文落在該區間,則可用公式(2)計算E(Iτi)。

(2)

(3)

(4)

(5)

對該條件極值函數求偏導,得式(6)。

(6)

解該聯立方程可得式(7)。

(7)

輸入:流量序列集合S

符號集大小K

輸出:區間集合Ψ={τ1,τ2,…,τK}

1.S’ ←S中的數據從小到大排序;

2.N←sizeof(S’)

3.i ← 1, j ← 1, prev ← 0, sum ← 0, p ← 1/N,Ψ← null;

4.forxiinS’do

5.prev←sum;

6.sum←sum+p;

7.ifprev<= 1/Kandsum>1/Kthen//劃分K個區間

8.if|prev-1/K| <|sum-1/K|then

9.xτj=xi-1

10.i←i-1;

11.else

12.xτj=xi

13.endif

14.sum← 0,prev← 0;

15.τj←Range(xτj-1,xτj); //區間包含相鄰間隔點間所有元素

16.j←j+ 1;

17.endif

18.endfor

19.Ψ←Ψ+τj

20.returnΨ

(2)多序列對齊。受網絡環境的影響,同一用戶行為觸發的網絡流量存在波動,因此符號化后的序列長度也并不完全一致。Baum-Welch算法(28)See Rabiner L. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proceedings of the IEEE,1989,77(2):257-286.可以從長度不一的多條序列中構建PHMM模式,但非常耗時且容易陷入局部最優。(29)See Bhargava A &Kondrak G. Multiple Word Alignment with Profile Hidden Markov Model. The NAACL HLT Student Research Workshop and Doctoral Consortium, Colorado,2009:43-48.因此,本節先利用多序列對齊算法(Multiple Sequence Alignment,MSA)將每類用戶行為對應的符號序列對齊。

使用Clustal Omega工具(30)See Clustal Omega. 2016-07-01. http://www.clustal.org/omega/.2021-12-01.對符號化后的字符序列執行對齊操作。圖6展示了一個符號序列對齊的樣例。經對齊操作后,每條序列包含115個字符,各序列缺失的位置用短橫線“-”填充。對齊后的符號序列可用來訓練不同用戶行為的模型。

圖6 多序列對齊結果示例

(三)用戶行為識別

如前所述,開展用戶行為識別時,首先從待測網絡流量中切分出單次交互觸發的流量,提取報文長度、方向等特征,生成待檢測的數字序列。接著,使用與訓練階段相同的符號化方式將待測交互流量中的報文特征序列映射為符號序列。依次計算該符號序列在此前構建的N個模型{M1,M2,…,MN}下的觀測概率Pr(i)。若Max(Pr(i))>μ,則判定待測序列由模型Mj關聯的用戶行為觸發,j由公式(8)確定。

j=argmax(Pr(j))

(8)

若Max(Pr(i))<μ,則將該待測序列判定為未知類型的流量。其中,閾值μ是經驗值參數,可從訓練數據中習得。

用戶行為識別是Web應用識別的基礎,在完成同一用戶觸發的網絡流量中的多個動作識別后,可構造該用戶的網絡行為序列,進而識別用戶是否訪問了目標Web應用。圖7展示了本文采用的Web應用識別框架。

圖7 Web應用識別框架

四、實驗與分析

(一)數據集和評判指標

利用PHPWind Version 8.7在阿里云服務器上搭建論壇,邀請志愿者訪問并使用Wireshark軟件記錄觸發的網絡流量。表1展示志愿者們在該社交論壇上執行的操作。執行以下行為各50次,收集觸發的網絡流量。流量收集完畢后進行過濾、切分、提取特征值和符號化等處理。將收集到網絡流量轉化為多條代表用戶行為的符號序列,構建用戶行為模型。接著,重復執行表1中的動作各100次生成測試數據集。

表1 用戶操作

采用機器學習常用的準確率(Precision)、召回率(Recall)、F1值(F1-Score)以及混淆矩陣評估用戶行為分類結果。

F1值(F1-Score)是準確率和召回率的調和平均值,計算方式如公式(9)所示。

(9)

TP、FP、TN和FN在本實驗的定義如下。TP:PHMM模型將用戶各類訪問論壇的行為觸發的網絡流量正確分類到對應行為的數量。FP:PHMM模型將用戶各類訪問論壇的行為觸發的網絡流量錯誤地分類到其他訪問行為的數量。TN:PHMM模型將用戶訪問其他應用觸發的網絡流量正確分類為無關行為的數量。FN:PHMM模型將用戶訪問論壇的行為觸發的網絡流量錯誤分類為無關行為的數量。

混淆矩陣,又名誤差矩陣、錯誤矩陣,是表示精度評價的一種標準格式。矩陣中的行表示樣本的實際類別,列則表示樣本的預測類別?;煜仃囍械狞c顏色越深表示被正確分類的樣本占比越大。

(二)實驗設置

Wireshark收集到的網絡流量經流量過濾、切分、特征提取轉化為報文長度序列,再進行符號化和多序列對齊處理。將符號化序列劃分為訓練集和測試集,訓練集用于構建用戶行為模型,測試集用于評估各行為模型判斷流量對應的用戶行為的有效性。

在經過與訓練階段相同的符號化處理之后,本文使用HMMER工具提供的hmmsearch指令尋找與測試流量序列匹配的PHMM模型(31)See Eddy S &The HMMER Development Team. HMMER User’s Guide: Biological Sequence Analysis Using Profile Hidden Markov Models. 2020-11-01. http://eddylab.org/software/hmmer/Userguide.pdf.2022-02-05.。由于執行hmmsearch指令后輸出的bitscore數值僅體現某一PHMM模型和目標序列間的關系(bitscore值越大說明待測序列與該PHMM模型的匹配度越高),與序列數據庫的規模無關。因此,本文依據bitscore值對測試數據進行分類,依次將待測序列與多個PHMM用戶行為模型相匹配,并將其判定為匹配度最高的PHMM模型所表示的用戶行為。

(三)用戶行為識別實驗

1.與其他符號化算法對比實驗。為評估本文提出的符號化算法的有效性,在Ede等人的公開數據集上(32)參見Alexa Top 1000網站流量數據集,2020年5月21日,https://github.com/Thijsvanede/FlowPrint/tree/master/datasets,2022年3月20日訪問。比較自適應符號化算法和等間距算法、K-means聚類算法。圖8分別展示了三種符號化算法在符號化序列與原序列間距以及運行時長兩方面的對比結果。自適應符號化算法在降低符號化序列與原序列間距方面的表現顯著優于等間距和K-means聚類算法,因此能夠最大限度保留流量序列原始信息。在運行效率方面自適應算法優于K-means,與等間距符號化算法用時相近。

圖8 等間距、K-means、自適應符號化算法的對比

由圖8(a)可知,隨著區間數K的增大,符號化序列與原序列間的距離逐漸收斂。為確定K的最優值,采用啟發式方法根據公式(10)和(11)分別計算符號化序列各區間內部距離intraK和外部距離interK。

(10)

interK=min|centeri-centerj|i,j∈{1,2,…,K}

(11)

(12)

由于自適應符號化算法在保留流量序列原始信息方面具有顯著優越性,本文采用自適應符號化算法預處理網絡流量,并根據公式(12)的計算結果取K值為23。

2.基于PHMM的用戶行為識別實驗。表2描述基于PHMM的用戶行為識別方法的準確率、召回率和F1值。從結果可以看出,絕大部分的用戶行為識別準確率都在95%以上,但“回帖”動作的準確率為58%,且“發帖”這一動作的召回率僅為27%。通過人工分析發現大量的發帖行為被誤判為回帖行為,影響了這兩類用戶行為的識別率。圖9展示用戶行為識別混淆矩陣,可見有70%的“發帖”行為被誤判為“回帖”。

圖9 用戶行為識別混淆矩陣

事實上,無論“發帖”或“回帖”,其實質都是向Web應用遞交數據。通過觀察發現,用戶執行發帖和回帖操作訪問的URL路徑一致,參數部分略有不同。例如:某用戶發布新帖時訪問的URL是post.php?fid=2,而其他用戶回復該帖時訪問的URL是post.php?action=reply&fid=2。此外,用戶發帖和回帖的行為都會引起網頁刷新,而這些網頁具有同樣的文檔結構?;谝陨嫌^察,本文認為“發帖”與“回帖”差異性較小,從而在后續實驗中合并這兩類行為。重新使用此前收集到的發帖和回帖行為觸發的網絡流量共同訓練出新的“發帖”行為模型,在測試數據集中識別用戶的發帖或回帖動作。圖10展示調整后的用戶行為識別混淆矩陣。

圖10 調整后的混淆矩陣

由圖可見,實驗中每類用戶行為的識別率都在95%以上,僅有部分流量被錯誤分類至其他類型。其中,“登錄”和“登出”兩類行為的識別率達到100%。此外,用戶訪其他Web應用觸發的流量會被識別為“其他”行為類別,不存在誤判的情況。用戶行為識別實驗的平均召回率、準確率和F1值分別為97.3%,97.6%和97.4%。

3.與其他方法對比實驗。由于用戶行為識別使用的網絡流量樣本集多由研究者各自收集整理,因此通過復現文獻的方法進行對比分析,以進一步評估本文提出方法的有效性。有研究(33)參見燕飛鵬:《基于網絡流量的微信用戶行為識別技術》,碩士學位論文,杭州電子科技大學,2019年。采用在大多數分類場景下表現優秀的隨機森林算法(Random Forest,RF)識別用戶行為。提取流量序列中報文的最大值、最小值、均值、絕對中位差、標準差、方差、偏度和峰度等統計特征構建特征向量。此外,為反映報文長度分布信息,將長度落在[0-300][301-600][601-900][901-1200]和[1201-1500]等5個區間的報文數量選作特征值。圖11展示本文(PHMM)與文獻(RF)提出的用戶行為識別方法的準確率對比,證實了本文方法的有效性。

圖11 PHMM與隨機森林分類方法對比實驗結果

五、詐騙類網站識別

隨著互聯網經濟和電信產業的迅猛發展,涉信息網絡犯罪的案件逐年上升。以電信網絡詐騙為代表的新型犯罪持續高發,已成為上升最快、群眾反映最為強烈的一類案件。據最高人民法院《涉信息網絡犯罪特點和趨勢司法大數據專題報告》披露,過去五年涉信息網絡犯罪案件呈逐年上升趨勢,其中近四成涉信息網絡犯罪案件涉及詐騙罪。(34)參見《涉信息網絡犯罪特點和趨勢(2017.1—2021.12)司法大數據專題報告》,2022年8月1日,載中國司法大數據研究院網,https://file.chinacourt.org/f.php?id=c9b92b185f359c81&class=enclosure,2023年6月8日訪問。2021年4月,習近平總書記對打擊治理電信網絡詐騙犯罪工作作出重要指示,要求“堅持以人民為中心全面落實打防管控措施,堅決遏制電信網絡詐騙犯罪多發高發態勢”。2022年9月2日通過的《中華人民共和國反電信網絡詐騙法》體現了國家對于網絡空間安全的重視及打擊電信網絡詐騙犯罪的決心,同時為公安機關牽頭負責反電信網絡詐騙工作提供有力的法律支持。在上述背景下,本文以用戶訪問詐騙類網站觸發的網絡流量為研究對象,從網絡流量中構建詐騙類網站的特征模型,進而開展涉詐類網站的識別,對公安機關打擊涉信息網絡犯罪具有積極作用。

為驗證本文所提出算法的可遷移性,將其應用于詐騙類網站識別。詐騙類網站是犯罪分子實施網絡詐騙的重要平臺,這些網站通過發布虛假信息和非法交易等手段誘導用戶提供個人財務或其他敏感信息,導致用戶財產損失或隱私泄露。公安機關檢測并打擊此類網站有助于保護公民財產安全及個人隱私,削弱犯罪網絡組織的運作能力,對減少涉信息網絡犯罪的發生具有重要意義。

本實驗采用從公安部門獲取的詐騙網站地址與非詐騙網站地址,(35)參見周勝利、徐嘯煬:《基于網絡流量的用戶網絡行為被害性分析模型》,《電信科學》2021年第2期。手動模擬用戶對這些網站的訪問,并利用Wireshark捕獲訪問過程中產生的網絡流量。實驗數據集中共包含詐騙網站訪問流量2051條,非詐騙網站訪問流量1143條。表3列出數據集中詐騙網站的類型和數量。

表3 實驗數據集中詐騙類網站的類型及數量

將本文提出的基于PHMM的用戶行為識別算法與經典的隨機森林算法分別應用于該數據集,對比兩種算法在詐騙網站識別方面的有效性。表4展示了兩種算法識別結果的混淆矩陣,矩陣中的行表示樣本的實際類別,列則表示樣本的預測類別。由混淆矩陣可得,基于PHMM的模型在詐騙網站識別方面的精確率為0.974,召回率為0.978;隨機森林模型的精確率分別為0.902和0.911?;赑HMM模型的算法優于經典的隨機森林算法,實驗證實本文提出的方法具備良好的遷移性。

表4 混淆矩陣對比結果

六、結語

針對用戶與Web應用交互時往往涉及頁面跳轉且網絡流量序列較長的問題,提出一種自適應的符號化算法,并利用計算生物學中廣泛應用的PHMM模型挖掘用戶和Web應用間的交互模式,從網絡流量中識別用戶行為。與前人工作相比,本文提出的自適應符號化算法能在最大限度保留原序列信息的同時降低PHMM模型的復雜度,且耗時較少。與經典的隨機森林分類算法的對比實驗表明,基于PHMM的用戶行為識別方法具有良好的準確率。詐騙類網站識別驗證了本文提出的算法具備可遷移性,能夠為公安機關打擊涉信息網絡犯罪提供一定的技術支持。下一步研究將考慮在用戶行為模式挖掘的基礎上開展行為預測,實現對用戶異常網絡行為的實時監控,并應用于涉信息網絡犯罪的預測及防治。

猜你喜歡
網絡流量符號化報文
基于J1939 協議多包報文的時序研究及應用
基于多元高斯分布的網絡流量異常識別方法
小學數學教學中滲透“符號化”思想的實踐研究
基于神經網絡的P2P流量識別方法
CTCS-2級報文數據管理需求分析和實現
淺析反駁類報文要點
關于一階邏輯命題符號化的思考
AVB網絡流量整形幀模型端到端延遲計算
現代流行服飾文化視閾下的符號化消費
ATS與列車通信報文分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合