?

云計算下網絡異常流量分組方法研究

2015-06-11 13:23李維宇沈溶溶
今日湖北·下旬刊 2015年12期
關鍵詞:方法研究云計算

李維宇 沈溶溶

摘 要 云計算下網絡異常流量的管理,需要從初次分類統計中來進行合理選擇分組方法?;贐IRCH算法的網絡異常流量分組管理,能夠在網絡數據驟增等異常變化中,實現初次聚類,并就網絡流量進行分組融合,減少異常流量帶來的網絡阻斷風險。

關鍵詞 云計算 BIRCH算法 流量分組 方法研究

隨著海量運算資源和網絡平臺的發展,對于云計算環境下的用戶訪問量的驟增帶來的網絡異常流量問題,一直是當前流量工程研究的重要課題。2015年11月11日以網絡購物為主的訪問并發峰值達到數千萬,對于如此巨大的訪問流量,如何從大數據流量管理中進行有效分組就顯得尤為重要。當前,在大流量數據管理上,多采用MPLS分組方法,如基于不同業務類型和基于不同數據包類型來進行分組等。但對于云計算環境下,隨著用戶群的幾何級增長,對于各類數據包、業務類型的劃分已經難以分界,在提升異常流量分組效率上,迫切需要從云計算中重新進行算法優化,以實現精細化管理目標。

一、當前常用的網絡流量分組方法

針對網絡流量分組方法的研究,王勁松等人從基于異常流量的字節特征入手,提出對多個特征匹配的不同分組交集獲取來實現分組,該方法需要從異常流量數據中進行獲取特征字節,并建立特征字節庫,從而來進行流量分組優化;裴楊等人從基于SVM網絡流量分類方法上,來優化分組的準確率,但因SVM算法過于復雜,并不適應海量數據處理;孫韓林等人提出C4.5決策樹方法,從海量數據流量分析中利用決策樹方法進行問題優化,但對于不同類型的數據流量分析上,無法直接對其他類型的流量進行有效分組。針對云數據下的數據挖掘與聚類分析算法,利用BIRCH快速聚類算法,來優化網絡異常條件下的數據分組效率,特別是在氣象數據分析中獲得較高應用。對于網絡環境下的用戶數據的分組,也可以通過模擬聚類的方法進行優化,為此,本文將從BIRCH算法改進中提出動態的分組方法。

二、BIRCH算法的分組原理

對于網絡流量數據的分組,BIRCH算法首先通過對網絡數據的提取,從用戶信息及流量類型上進行聚類分組,在結合數據信息進行分組融合,獲得分組效果。對于流量數據的特征提取,主要將流量數據轉換為聚類分析所需分組向量,并利用BIRCH算法進行網絡流量特征的用戶聚類;分組融合是對不同時刻的分組進行聚類,并對聚類結果進行處理,有平衡網絡流量。

(1)對網絡數據流量特征的提取。

對于海量數據進行聚類分組前,需要從網絡數據的特征進行選取,特別是數據相似性特征,常用的方法有馬爾可夫算法、小波分析方法等,這些方法能夠從網絡流量數據自相似度上進行分析,不足的是選取方法較為復雜,對數據計算耗時、耗性能。Silveira等人通過對異常數據流量問題的選取方法進行改進,從區分異常流量特征上,從低緯度上進行選取即可;另外對于原始數據的差分序列方差分析,能夠較好的反映數據波動問題。為此,本文將選取網絡流量當前采樣值和兩次差分值來進行網絡聚類特征分析。也就是說,對于異常網絡流量特征可以表示為:(,),對于表示為流量值,對于表示數據流量采集的時刻。

(2)聚類分組方法。

根據BIRCH算法,在對海量數據進行聚類分組分析中,BIRCH是基于距離的層次聚類算法,通過引入聚類特征和聚類特征樹概念,利用三元組聚類特征來進行標識,對于式中的N表示為某一節點中的數據對象個數;對于LS表示為N個對象對應的特征向量的線性和;對于S表示為N個對象特征向量的平方和。利用CF聚類特征分析方法,能夠對N個用戶的特征樹中進行表示,即{,(,),(,)2},其中對于聚類特征樹中的分支因子B,以及閥值T的設置,是實現對特征樹的平衡目標。當分支因子被限定為非葉節點中最大孩子數目時,閥值是對葉子節點中簇的最大半徑進行限制。BIRCH算法首先是對整個數據信息進行掃描,并從聚類特征樹的初始化中,對每一個對象與之最近的葉子節點進行關聯;如果這個簇的半徑大于閥值T,則該葉子節點將被分割;同時,對于特征樹的建立后,根據聚集特征頭,可以對原有數據進行再聚集分類,從而獲得聚類結果。

(3)分組融合計算。

從聚類算法來看,聚類分組后并非是最終的結果,也不能直接進行分組優化,因為BIRCH算法所得到的分組是一種硬性分組,無法與各個用戶進行關聯。此時需要從多次聚類分組結果中進行差異化分析,并進行修正。由于異常網絡環境下數據流量較大,對于數據流量中特征相似度較大的用戶,在一定時間段內被聚類到同一分組的可能性較大。因此,可以通過對不同分組用戶信息相似度計算,來對各個分組中數據進行分組融合。其融合的步驟如下:首先在進行分組之初,需要對所有用戶進行分組,并將分組與其他數據分組建立相應關聯。如將每一用戶指定給改組的生存時間計作,其初始值為。當聚類產生分組后,需要對當前分組與新分組進行交集計算,并從當前分組中獲得最大交集的新分組列為當前分組;再次對于不同用戶,根據用戶與前兩個分組的交集計算,來獲得生存時間,但不能超過;如果兩個用戶沒有交集,但屬于已有分組,則生存時間計作;當用戶生存時間為 = 1時,則清除該用戶,否則對用戶的生存時間賦初始值。最后,對于聚類融合后,對于未被合并的分組,則計作新的當前分組。利用該方法,對于某一用戶來說并不屬于某一個分組,但經過多次聚類后,隨著生存時間的下降則被清除。由此可見,對于分組融合就是通過生存時間的計算來獲得。

三、結語

對于改進后的BIRCH算法,我們可以通過一個應用場景來進行仿真驗證。利用云計算數據中心的數據,將1000個模擬用戶產生的業務數據流量進行計算,選取250個用戶進行異常流量分析,由此來進行網絡擁塞處理。通過實驗過程可知,對于異常用戶的區分上,BIRCH分組方法能夠實現對丟包問題、流量分組的多種處理,確保異常用戶的數據流量控制比例在70%以上,有效減少丟包問題。在實際運用中,該方法將分組細心和分組方法進行優化,能夠體現精細化分組和流量平衡管理。

參考文獻:

[1]武魯,王連海,顧衛東.基于云的計算機取證系統研究[J].計算機科學,2012(05).

[2]李世明.具備web數據整合功能的負載均衡系統設計與實現[D]. 北京郵電大學,2014.

(作者單位:河南省輕工業學校)

猜你喜歡
方法研究云計算
筏板基礎設計與計算方法研究
探尋提高農村初中生寫作水平的方法
初中數學教學中情境創設的研究
如何提高學前教育專業聲樂課的教學質量
數學教學中有效滲透德育方法的研究
志愿服務與“互聯網+”結合模式探究
云計算與虛擬化
基于云計算的移動學習平臺的設計
實驗云:理論教學與實驗教學深度融合的助推器
云計算中的存儲虛擬化技術應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合