?

思考聚類算法下網絡應用協議識別系統的實現

2013-09-03 06:32張甲侯磊
中國信息化·學術版 2013年7期
關鍵詞:網絡流量網絡應用聚類

張甲 侯磊

【摘 要】一直以來,網絡應用協議識別都是網絡技術研究的難點與熱點問題,屬于網絡安全系統的核心。在當前,主流的網絡應用協議識別方法主要為基于網絡流行為的網絡應用識別方法及基于載荷的網絡應用協議識別方法,這兩種網絡應用協議識別系統都存在著一定的局限性,為更好地分析真實網絡中存在的網絡數據,對有效區分應用協議網絡流特征向量進行統計與挖掘,提出建立聚類算法下網絡應用協議識別系統。本文從網絡應用協議識別系統的研究現狀出發,提出建立聚類算法下網絡應用協議識別系統,并對幾種聚類算法進行簡述,最終通過實際試驗證明了聚類算法下網絡應用協議識別系統具備良好的識別效果。

【關鍵詞】聚類算法 網絡應用協議識別系統

【中圖分類號】G250.72【文獻標識碼】A【文章編號】1672-5158(2013)07-0143-01

隨著互聯網應用技術的不斷發展,互聯網網絡應用日新月異,層出不窮,致使網絡流量日趨復雜化。在互聯網發展之初,僅僅存在著簡單的幾種協議,如HTTP、FTP、SMTP,伴隨著即時通信、視頻、P2P等技術的發展與應用,讓互聯網中承載的內容日趨多樣,尤其是P2P資源共享技術,實現了用戶之間對等的資源共享。隨著網絡應用種類的不斷增加,為網絡管理與運行帶來了極大的挑戰。加上當前人們對網絡應用的依賴程度越來越高,對網絡的實時性提出了更高的要求,從而推動了網絡帶寬技術的進步。然而,面對龐大的網絡流量,網絡安全系統需要進行更大數據量的處理,更是對流量實時處理提出了更高的性能要求。

一、網絡應用協議識別系統研究現狀

網絡應用協議識別系統屬于網絡安全系統的核心,通過網絡應用識別系統,可以快速準確地識別出網絡流中所應用的業務,并控制各類網絡應用協議的使用帶寬,限制非授權網絡應用寬帶需求,滿足授權網絡應用的帶寬要求,通過這種方式,分配網絡容量,深化網絡流量安全檢測,進一步提高網絡服務的質量,為用戶帶來更好的網絡體驗。

在當前,網絡應用協議中網絡流呈現出靜態特征與動態特征。根據網絡應用協議識別方法的使用特征,大致可以分為三個種類,分別為基于網絡流行為的網絡應用識別方法、基于載荷的網絡應用協議識別方法與基于端口的網絡應用協議識別方法。

(一)網絡應用協議中網絡流特征

在不同的網絡應用協議中,存在著不同的流量特征,這些流量特征是建立網絡應用協議識別的基礎。主要的流量特征包括流行為統計特征、端口特征及應用層負載數據字符特征等,這些網絡流表現出靜態特征與動態特征。

1.網絡應用協議的靜態特征

靜態特征,在所有網絡協議中都不會隨著時間與空間因素的變化而發生改變,具備固有特征。靜態特征主要是對數據報所攜帶的數據內容進步處理分析,最終對不同網絡應用協議特征進行區分,靜態特征主要包括應用層負載數據字符特征與端口特征兩種。

靜態特征中應用層負載數據字符特征主要指的是應用層中用戶的數據會存在特定的特殊字段,如在P2P網絡應用的控制報文中,報文應用層所攜帶的數據會具備一些特定存在的字符。通過網絡流檢測技術,針對報文中所攜帶的特定字符判斷出報文是否屬于P2P文件共享應用所發報文,然后進行網絡流的管理與控制。隨著網絡應用領域不斷擴大,人們對信息傳遞的安全性提出了更高要求,更是將加密機制應用在網絡應用之中,在防止信息泄露的同時,也隱藏了網絡流數據字符特征,導致網絡流數據特征不能快速及時地識別出網絡應用協議。

2.動態特征

動態特征,指的是在某一種網絡應用協議中,隨著時間與空間因素的變化而出現不同結果,動態特征又被稱之為網絡應用行為特征,需要一定的連續時間與空間積累才可以將動態特征顯示出來。

(二)網絡應用協議識別方法研究現狀

1. 基于網絡流行為的網絡應用識別方法

基于網絡流行為的網絡應用識別方法主要是對數據報中行為特征進行統計,并將統計結果抽象成多維向量,結合機器學習方式,對多維向量間大小關系進行識別,最終對網絡流應用協議進行判斷。這種方法擴展性良好,可以發現新特征流,局限性是難以通過簡單匹配的方式完成應用協議識別。

2.基于載荷的網絡應用協議識別方法

基于載荷的網絡應用協議識別方法采取還原技術與協議分析的方法,針對數據報采取深度檢測,獲取應用層所攜帶的數據內容,并對其數據中包含的內容進行分析,最終呈現出協議正則表達式,通過協議正則表達式判斷網絡流中所應用的網絡協議,對網絡流進行管理與控制。這種識別方法精確度高,維護簡單,其局限性在于不能實現隱私保護,對新型應用實用性較差等。

3.基于端口的網絡應用協議識別方法

基于端口的網絡應用協議識別方法主要應用于傳統的互聯網應用協議識別系統中,在傳統互聯網應用中,服務端口具備統一規范的特性,加上協議的數量較少,采取端口的網絡應用協議識別方法十分有效,且技術實現簡單,開銷較小,能夠優化網絡性能,提高網絡服務的質量。但隨著端口自定義的出現及應用,龐大網絡流量及網絡協議種類不斷增加,越發顯示出基于端口的網絡應用協議識別方法的落后。

二、基于聚類算法的網絡應用協議識別系統及聚類算法

聚類算法,其核心為是將相似對象聚成為一個簇,對不同對象進行分類處理?;诰垲愃惴ǖ木W絡應用協議識別系統,將網絡流視為相似對象,通過有效區分網絡流特征地提進行聚類,將相同網絡協議的網絡流聚成為一個簇,從而判斷出網絡流所使用的網絡協議。

(一)基于聚類算法的網絡應用協議識別系統實現的總體流程

基于聚類算法的網絡應用協議識別系統實現的總體流程如下:對正在傳遞的網絡流量進行抓??;對網絡流量中數據報通過特殊網絡流劃分方式進行劃分,獲得不同的網絡流;對每個網絡流所攜帶數據進行提取,并將提取結果與每種網絡應用協議中存在的匹配正則表達式作匹配處理;通過匹配處理分析出網絡流使用的網絡協議;如通過匹配處理分析出網絡流使用的網絡協議,則進行網絡流管理與控制;如不能通過匹配處理分析出網絡流使用的網絡協議,則提取網絡流中特征向量,將網絡流特征向量及標識存儲到網絡流信息數據中;采用聚類算法對網絡流特征進行處理;通過判斷每簇所含有的網絡應用協議,判斷出網絡應用協議的類型。

(二)聚類算法

1.K-means聚類算法

當前,最為經典的聚類算法就是K-means聚類算法,其算法實現的思想是:隨機的選擇出空間中某個點作為中心,進行聚類,劃分出不同的簇,然后使用迭代方式,對各類聚成中心值進行更新,最終實現良好的聚類結果。

2.網格密度聚類方法

網格密度聚類方法可以發現任意形狀的聚類簇,通過網格密度聚類方法,對低密度區域進行過濾,發現樣本密集處,最終發現任意形狀的聚類簇。這種計算方法的目的是明確密度相連對象的最大集合,并對結果進行分析。

3.EM聚類算法

EM聚類算法可以實現對非完整數據集中計算,屬于一種簡單實用的學習方法。通過迭代最大化完整數據對數似然函數期望進行最大化不完成數據對數似然函數,最終獲取模型估計參數。

三、結束語

隨著互聯網科學技術的進步與網絡的普及,人們對網絡的依賴程度越來越高,各種網絡應用,為互聯網網絡帶寬資源的優化配置帶來了極大挑戰。通過對網絡應用協議識別,可以有效實現對網絡應用流量的管理與控制,限制不合理網絡應用,優化網絡帶寬配置,提高網絡服務質量。當前主要的網絡應用識別協議為基于網絡流行為的網絡應用識別方法及基于載荷的網絡應用協議識別方法,這兩種方法存在著一定的局限性,本文提出建立基于聚類算法的網絡應用協議識別系統,并通過實際試驗,證明聚類算法的網絡應用協議識別效果顯著,值得推廣應用。

參考文獻

[1] 梁波. 基于聚類算法的網絡應用協議識別系統的研究與實現[D].山東大學,2012

[2] 楊爽.基于雙重特征的網絡應用協議識別系統[D].北京交通大學,2012

[3] 劉炯,徐同閣. 基于NetFlow的應用協議半監督識別算法[J].計算機技術與發展,2010,07:9-12+16

[4] 譚駿,陳興蜀,杜敏.基于BPSO與神經網絡的實時P2P協議識別算法[J].中南大學學報(自然科學版),2012,06:2190-2197

猜你喜歡
網絡流量網絡應用聚類
泰國·曼谷
基于模糊聚類和支持向量回歸的成績預測
基于流形學習的自適應反饋聚類中心確定方法
基于密度的自適應搜索增量聚類法
一種用于敏感圖像快速加密的圖像注入技術仿真
基于小波神經網絡的網絡流量預測研究
談網絡在中學生物探究學習中的應用
民航空管氣象網絡安全建設方案設計與實現
基于時間序列分析的網絡流量預測模型研究
PocketPC網絡應用全接觸
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合