?

無線局域網自動化接入過程安全監測方法

2022-11-28 09:28高俊
自動化技術與應用 2022年10期
關鍵詞:聚類無線距離

高俊

(河南省科學技術情報中心,河南 鄭州450018)

1 引言

無線局域網(Wireless Local Area Networks,WLAN)可以實現在局部區域內無線媒體或介質進行信息傳輸,是計算機網絡和無線通信技術相結合的結果。經過不斷的升級發展,已經被廣泛應用于教育行業、醫療行業、金融行業和人們的生活中。然而,在WLAN 快速發展、為人們生活和工作帶來極大便利的同時,安全問題也隨之產生,并成為影響其繼續發展和普及的一個重要因素。

調查研究表明,WLAN 主要存在以下幾個方面的安全威脅:通過公共WLAN網絡,攻擊者偽裝成合法用戶,接入WLAN非法訪問網絡資源;一些黑客研制的某種掃描工具使非法接入WLAN變得更加簡單;在使用WLAN傳輸未被加密的信息或文件時,易被攻擊者截獲或者篡改,甚至造成個人信息被盜??;還有某些無線設備的不適當配置也有可能造成信息的泄露。因此,有必要研究適用于無線網絡自動化接入安全監測方法。

近年來,也有許多國內外的學者針對無線網絡安全問題提出了一些安全理論、安全方法和安全技術。文獻[1]提出了無線網絡中信息安全防范方法,通過對機密信息標準化處理建立機密信息融合的超曲面,并在此基礎上構建了RBF神經網絡,利用RBF神經網絡對局域網中機密信息的相關度進行預測實現信息安全防范,但是該方法計算過程較繁雜,耗時長。文獻[2]提出了家用無線網絡路由器安全防護方法,通過監測HTTP 協議網絡攻擊行為,將非法行為牽引至影子服務器,從而降低家用無線路由器的安全風險,但是該方法局限性較大,適用于家用無線網絡,在大型無線環境內效果并不理想。國外專家通過能效技術找出無線傳感器網絡中的欺騙攻擊并減輕影響,由于分組傳輸的延遲和分組丟失會不必要地浪費資源,因此通過減少能耗相關算法提高了網絡性能從而提升無線網絡安全性。

本文總結以往研究經驗,提出基于K-means算法的無線局域網自動化接入過程安全監測方法。在大量的網絡數據中篩選出有效的正常用戶行為數據,利用K-means算法對其進行安全監測,將正常用戶行為與異常行為進行歸類劃分,屏蔽或拉黑異常行為用戶,保障正常用戶的上網安全,完成無線局域網自動化接入過程安全監測,以圖有效保護用戶上網安全。

2 WLAN常見攻擊分類

針對當前WLAN 環境中用戶信息數據量巨大且結構復雜的特點,要實現對不同類型的數據進行準確無誤、快速的處理是一件非常困難的事情,這就對WLAN自動化接入安全監測提出了更高的要求[3]。采用高效率的數據處理方法,對數據集中具有代表性的數據進行分析,可以提高網絡安全檢測的工作效率。聚類算法是一種將數據按照群的形式進行分析的算法。將WLAN 環境中采集到的所有數據分為若干個模式子集,并將相似度較高的數據放在同一個集合內,所以,每個集合之間的差異性都是比較大的。

WLAN環境下實現自動化接入安全監測的主要途徑是通過在網絡運行過程中,隨著運行環境的不斷變化,節點會相應的插入新的安全監測代碼[4],從而保障整個網絡運行的安全性。常見的WLAN網絡攻擊如圖1所示。

K-means 算法是按照數據的相似度進行分類劃分,將有著相近相似度的數據歸為同一類,并且通過計算各個數據之間相似度的平均值,將其劃分為k個聚類。

在本文WLAN安全監測中,所要監測的數據不僅數量多,而且類型不統一,可以采用K-means 算法從網絡大數據n個對象中隨機選取k個對象作為初始聚類中心,被選取的對象屬性特征較明顯,且不同于其他對象。以被選取對象到初始聚類中心的距離為劃分依據,將符合條件的對象劃分在同一個聚類內。通過計算就會有新的聚類產生,并對新產生的聚類計算求平均值,以此類推重復計算,則會有若干個新的聚類產生和若干個新的距離出現,當標準測度函數開始收斂時停止計算,此時得到的數即為最佳準確度的平均值。

K-means算法是根據數據間的相似度進行劃分的一種方法,該算法將采集到的網絡大數據中的n個對象分為k個簇,這些簇之間具有明顯的屬性相似度,并且差異性也有明顯的不同。對每一個簇中的數據計算求平均值,得到具有最佳準確度的簇。通過此算法將WLAN 環境中所有的數據進行聚簇分類后,可以得到合法信息的簇和入侵信息的簇,將入侵信息篩選出來,以此達到保護WLAN中正常用戶的信息安全性和完整性的目的。

在K-means算法計算過程中,采用均方差作為標準測度函數來求平均值,標準測度函數見式(1):

式中,xj表示網絡中某一數據點;Ci為聚類中心;mi為聚類的平均值。

K-means 聚類算法的優點很多,但是在計算過程中缺點也很明顯。例如,k值需要在進行聚類計算之前就給出,對聚類初始中心的依賴性較大,對于WLAN 環境下數據量巨大的計算,該算法在計算過程中要花費大量的時間。這也在一定程度上阻礙了K-means 聚類算法的應用范圍。

K-means聚類算法對數據類型為密集型數據[5]、所有數據之間有明顯的類別差異的這類數據進行聚類計算較簡便,在網絡安全監測中也可以取得很好的效果。但是在實際環境中,安全監測網絡數據包的數據通常都是隨機選取的,尚無顯性的規律可循,就要對其進行聚類劃分,此時利用K-means聚類算法來選取聚類中心就比較困難了。因為還沒有確定k的值,所以聚類的結果也是不確定的。再加上K-means 聚類算法在處理密集型數據時效果較好,對于離散型數據[6]計算過程較為繁雜,不能很好地處理,大大地限制了其應用范圍。

3 WLAN接入安全監測預處理過程優化

為了更好地監測WLAN 中的異常行為,本文對Kmeans算法中的數據預處理、初始中心選取和k值確定這三面做出優化調整。

(1) 數據預處理。

網絡中的大數據具有兩種屬性,一是連續型數據,另一種是如服務協議和服務名稱一類的離散型數據。為了適應本文算法,更利于對數據的挖掘,這里將所有離散型數據進行預處理,轉換為方便計算的數值型數據,對離散型數據的定義過程如下所示:

定義1:在網絡報警數據庫D中含有w個警告記錄集T={T1,T2,…,Tw}(w≥1),由r個特征屬性構成其屬性集X,X={X1,X2,…,Xr}并且滿足原則X=Xc Xd和XcXd=φ,其中Xd為數值型數據。D中的所有警告記錄Ti都是由r維屬性構成的,那么則有:Ti=(xi1,xi2,…,xir)。

可以通過計算所有數據之間的距離來計算數據之間的相似度,這里本文采用歐氏距離來計算。

定義2:如果Ti和Tj為分別為警告記錄中的任意兩條記錄,那么就可以通過歐式距離來計算Ti與Tj之間的相似度距離Sim(Ti,Tj)為:

其中,Ti與Tj之間的字符型屬性的相似度距離表示為:

其中,q 表示字符型屬性個數,1≤q≤r,ij,S(xih,xjh)表示第h個字符屬性的相似度距離。Ti與Tj之間的數值型屬性的相似度距離為:

式中,p表示數值型屬性個數,且有1≤p≤r,i≠1。

定義3:假定聚類集C={Ci}{i=1,2,…,k};Ci={Tf,Tl,…,Tg}為第i個聚類內包含l個警告記錄。

定義4:ri可表示為ri+rid+ric,其中,rid表示為數值屬性的聚類中心,其值的大小取決于警告記錄內所對應的屬性平均值,即:

由警告記錄內屬性頻率最高的值來確定字符屬性聚類中心的值,即:

定義5:通過計算聚類中心rj的相似度,就可得到Ti和Cj的相似度的值,計算過程如下:

最小距離為:

定義6:任意兩個聚類Ci和Cj之間最小相似度距離可以表示為:

包含l 個數據對象的第Ci類內數據對象相似度平均值SWCi可表示為,式中Avg為算數平均值求解函數:

定義7:按照Ti與類別的最大相似度距離為依據,對數據進行劃分。按照與聚類中心距離最近為依據,可得到這個最大相似度距離為:

定義8:記錄分布密度函數di=,其中zi=,di的值越大,對后期聚類的結果影響就越大。

(2) 初始聚類中心的確定。

由于樣本點的密度和聚類中心的相似度會對初始聚類中心的確定產生一定程度的影響,所以這里選擇密度較高、相似度較大的聚類來進行計算,從D中隨機選取q個數據子集D1,D2,…,Dq,每個子集含有n'條記錄,n'=(t,n'n),利用FindM(D,q,n')函數,得到r1、r2、r3三個初始聚類中心。

FindM(D,q,n')函數計算過程如下:對隨機選取的q個數據子集Dj(1≤j≤q)進行遍歷,根據定義8,可得到Dj各記錄的分布密度為di(1≤i≤n'),rj=Max(di),并根據定義4得到{rj}的聚類中心設為r1。根據定義2計算Sim(r1,rj),得到Max(Sim(r1,rj))設為r2。同理,計算,Sim(r2,rj),r3=Max(Sim(r1,rj)+Sim(r2,rj))輸出初始聚類中心r1、r2、r3。

(3) 新聚類的產生和k值的確定。

通過計算得到類間相似度距離最小和類內相似度最大的結果[7]。為了使k值能夠按照類內相似度距離最小和類間相似度距離最大為標準進行劃分,在計算過程中隨時變換k的值,計算過程如圖2所示。

4 基于K-means算法的WLAN安全監測模型

在運用K-means算法求解過程中,首先,隨機選取k個對象,根據每個對象與聚類中心距離最近的方式進行聚類劃分[8];然后,重復計算對象的聚類中心,當準確度函數開始收斂時停止計算。

基于K-means 聚類算法的WLAN 自動化接入安全監測模型如圖3所示。

監測模型可分為兩個階段來設計,一是訓練階段,另一個是監測階段。

在監測模型的訓練階段,首先要抓取WLAN環境中的正常行為數據,將可以反映網絡狀態安全的特征數據挑選出來,為構建安全監測模型準備所需要的安全行為數據集。其次,將抓取到的所有數據通過Hash函數進行預處理,將特征數據轉化為監測模型可以識別和處理的數據形式以適應本文的算法分析,需要最后運用K-means 聚類算法計算預處理后的特征數據,完成聚類劃分,構建數據樹形結構,完成對所有數據的訓練,從而完成安全行為數據基準庫的構建。

監測模型到了第二階段,也就是監測階段:

首先,要對WLAN環境中采集到的正常行為數據進行監控,以確保所選取的待測特征數據是準確無誤的。

其次,利用Hash函數對特征數據完成類別轉換。然后,將數據集里的數據按照K-means 聚類算法,選取不同的特征進行聚類劃分。利用在訓練階段構建的樹形結構尋找與k值鄰近的對象。最后,利用直推式異常檢測算法計算特征數據,再對比正常行為數據基準庫,得到p 值的結果,對比兩次計算的結果就可以判斷出接入WLAN的用戶是否存在異常信息。

利用直推式異常檢測算法可以對網絡采集到的原始數據通過訓練進行隨機性檢測和置信度計算,將所得的p值與聚類后的數據進行對比分析,如果p值比安全行為數據基準庫的空間值大,說明其類屬于接入WLAN正常用戶的可能性就越大。

5 仿真實驗

為了驗證本文方法在WLAN 自動化接入過程中的安全監測性能,以WLAN 網絡安全評測基準為基礎,將文獻[1]、文獻[2]和本文方法對WLAN自動化接入的安全監測進行仿真實驗。

在實驗環境中,記錄的屬性值包括44個,字符屬性包括8個。在網絡數據庫中,隨機抽取5個數據子集作為樣本數據,其中每個子集中包含100 個信息記錄,以此為實驗環境進行仿真實驗測試。數據樣本如表1所示。

表1 數據樣本

將文獻[1]、文獻[2]方法與本文方法在監測率、誤檢率、監測時間上進行對比,實驗結果如表2-表4所示。

根據表2-表4建立更為直觀的圖4,可以看出本文方法不管是在監測率、誤檢率、監測時間方面分別為85.11%、14.89%、126s,結果都優于文獻[1]、文獻[2]方法。其中,文獻[1]方法最差,文獻[2]方法次之。主要是因為本文方法在數據處理方面將不易計算的離散型數據考慮在內,使影響監測結果的誤差降到最小。

表2 文獻[1]方法

表3 文獻[2]方法

表4 本文方法

6 結束語

由于無線局域網固有的特性使一些不法分子有機可乘,因而存在很多的安全隱患,即使目前已經有很多關于這方面的研究,但是都有其狹隘性。本文在此基礎上,提出了基于K-means 算法的無線局域網自動化接入安全監測方法。在K-means算法的基礎上對數據預處理、聚類中心的選取和確定k值等方面做了優化改進,使其計算過程更簡便,在實際應用中的范圍更廣,并且可以很好地處理離散型數據。以優化后的K-means 算法為基礎構建WLAN自動化接入安全監測模型,將采集到的網絡數據分別進行訓練和監測,并采用直推式異常檢測算法與正常行為數據基準庫進行對比,完成WLAN 的安全監測。仿真實驗結果表明,本文方法監測效率和準確度較高,在WLAN安全監測方面可以很好地保障正常用戶上網安全。在下一步的研究工作中,將會不斷完善無線局域網的安全監測方法,不斷增加新的安全策略來保障無線局域網用戶的安全使用。

猜你喜歡
聚類無線距離
一種傅里葉域海量數據高速譜聚類方法
大師操刀,通勤首選 KEF Mu3真無線降噪耳機
一種改進K-means聚類的近鄰傳播最大最小距離算法
《無線互聯科技》征稿詞(2021)
無線追蹤3
算距離
改進K均值聚類算法
無線追蹤
基于Spark平臺的K-means聚類算法改進及并行化實現
每次失敗都會距離成功更近一步
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合