?

基于改進遺傳算法的計算機網絡數據聚類方法

2023-07-21 11:12許麗媛
計算機應用文摘·觸控 2023年14期
關鍵詞:計算機網絡

摘 要 為提高計算機網絡數據的聚類效果 提出了一種基于改進遺傳算法的計算機網絡數據聚類方法 其采用改進遺傳算法構建初始種群 利用目標函數提取計算機網絡特征 構建計算機網絡數據信息流模型聚類計算機網絡數據 仿真結果表明 該方法的數據流處理任務完成總時間較短 負載均衡性較穩定cpu 占用率較低 由此證明 該方法數據聚類效果較優

關鍵詞 改進遺傳算法 計算機網絡 數據聚類

中圖法分類號tp399 ?文獻標識碼a

1 引言

現階段,人工智能技術得到了飛速發展,計算機網絡已經廣泛應用于各個領域[1] ,由此產生了海量的計算機網絡數據,如何有效處理計算機網絡數據成為目前的研究熱點[2] 。對計算機網絡數據進行聚類處理[3~5] ,可以了解計算機網絡數據之間的相似程度,為后續計算機網絡數據的分類、存儲、查詢等實際應用提供理論基礎。目前,也有相關學者進行了相應的研究,潘繼財[6] 針對混合屬性數據,在考慮樣本同聚類中心距離基礎上,提出了一種基于廣義線性模型的混合屬性數據聚類方法。通過計算混合屬性數據的相異度、樣本與聚類集間距實現數據聚類。實驗發現該方法聚類適應度較好,可以有效體現樣本間差異,且具有較高的準確度,所需迭代次數也較少。李立生等[7] 提出了一種基于稀疏自編碼的故障數據聚類清洗方法,主要對電網中錄波型故障指示器上傳的海量故障數據進行特征學習與降維,對故障數據的特征進行聚類與清洗,實現去除冗余數據的目的,以便運維人員獲取故障信息及進行后續處理。

遺傳算法可以對海量個體進行種群處理,但傳統的遺傳算法容易陷入局部最優,無法獲取全局最優解。為此,本文提出了一種基于改進遺傳算法的計算機網絡數據聚類方法,以期為海量計算機網絡數據的后續處理提供借鑒。

2 計算機網絡數據的數據方法設計

2.1 構建初始種群

遺傳算法中初始種群是隨機形成的[8] ,在實際計算過程中若沒有充分考慮解空間分布情況,則會導致大量個體全部集中在一個區域內,不利于最優解的搜索。為有效解決上述問題,改進遺傳算法并確保個體均勻分布在求解空間,且保留個體之間差異性。在設定數量以及染色體長度的情況下,隨機2 個染色體之間的相似度為:

3 仿真實驗

為了能夠進一步驗證該方法(基于改進遺傳算法的計算機網絡數據聚類方法)的有效性,與文獻[6]方法(基于廣義線性模型的混合屬性數據聚類方法)和文獻[7]方法(基于稀疏自編碼的故障數據聚類清洗方法)進行對比實驗分析,對比內容為數據流處理任務完成總時間、負載均衡性、計算機數據聚類過程CPU 占用率。

3.1 仿真環境設置

此實驗過程中的全部實驗環節將在下述實驗環境中完成。

(1)硬件。

內存:50 GB

RAM:16 GB

MEM:4 GB

硬盤:256 GB

主頻:3.3 GHz

顯卡:512 MB 獨立顯卡

(2)軟件。

操作系統:Windows 8 以上

開發語言:C++

數據庫:SQL server 2019

語料提取工具:NLP

向量訓練工具:FastText

3.2 仿真數據選擇

在此次網絡中存在6 個數據服務器以及20 個數據處理節點。將KDD 數據集中10% 作為訓練集,correct 文件作為驗證集,共計6 組數據集,具體設定結果如表1 所列。

3.3 仿真分析與結果

3.3.1 數據流處理任務完成總時間分析

在此次實驗過程中,為增加實驗的對比性,在實驗網絡節點固定的條件下,將任務數設定為10,20,50,100,200 5 組,對比應用不同方法的計算機網絡數據聚類任務完成總時間,具體實驗結果如圖1 所示。

對比上述實驗結果可以看出,隨著任務量的增加,不同方法的計算機網絡數據聚類任務完成總時間存在明顯的差異。本文方法的數據量處理完成總時間相對穩定,整體呈線性關系,無較大波動。與本文方法相比,文獻[6]方法和文獻[7]方法的任務完成總時間波動較大,且均長于文中方法的任務完成總時間。綜合上述實驗結果可以確定,應用本文方法可有效控制聚類時間,從而進一步提升數據流處理速度。

3.3.2 負載均衡性分析

對任務量增加后的計算機網絡數據聚類的負載均衡性進行分析,所得結果如圖2 所示。

對圖2 中內容進行分析可以看出,應用3 種方法后,計算機網絡數據聚類的負載均衡性存在明顯的差異。隨著數據聚類任務不斷增加,各數據節點的負載均衡性呈現出下降狀態。但應用本文方法后,計算機網絡數據聚類的負載均衡性系數下降速度較為緩慢,且整體均衡性相對較高。與本文方法相比,應用其他2 種對比方法后,計算機網絡數據聚類的負載均衡性下降較為迅速且波動較大,存在負載均衡系數激降的情況,嚴重影響了數據流處理效果。

3.3.3 計算機數據聚類過程CPU 占用率分析

在上述2 實驗環節的基礎上,對應用不同方法后的計算機網絡數據聚類任務執行CPU 占用率進行分析,所得實驗結果如圖3 所示。

從圖3 所示內容可以看出, 當應用本文方法后,實驗網絡中各物理機的CPU 占用率雖然存在細微的差異,但整體較為穩定。應用文獻[6]方法后,各物理機的CPU 占用率雖無明顯波動,但整體較高。應用文獻[7]方法后,各物理機的CPU 占用率存在較大差異。根據上述實驗結果可以確定,本文方法具有較高的應用價值,可進一步提高大數據流處理網絡的穩定性。

4 結束語

本文利用改進遺傳算法將計算機網絡數據進行分布式聚類。通過改進遺傳算法構建初始種群均勻分布數據;利用目標函數描述特征選擇最優化,提取計算機網絡特征;構建計算機網絡數據信息流模型計算數據特征向量屬性,聚類計算機網絡數據。實驗結果表明,該方法可以有效聚類計算機網絡數據。

參考文獻:

[1] 蘆建蘭.計算機網絡數據庫安全問題研究[J] .電子測試,2021(14):133?134.

[2] 諶英敏.數據加密技術在計算機網絡安全中的應用[J] .通訊世界,2021,28(4):130?131.

[3] 曾祥銀,鄭伯川,劉丹.基于深度卷積神經網絡和聚類的左右軌道線檢測[J] .計算機應用,2021,41(8):2324?2329.

[4] 趙博宇,張長青,陳蕾,等.生成式不完整多視圖數據聚類[J] .自動化學報,2021,47(8):1867?1875.

[5] 廖靜倩,張道文,高立,等.基于NAIS 事故數據聚類的丁字路口危險場景研究[J] .汽車安全與節能學報,2021,12(3):336?345.

[6] 潘繼財.基于廣義線性模型的混合屬性數據聚類方法[J].信息技術,2021,45(8):6?11.

[7] 李立生,劉洋,盧文華,等.基于稀疏自編碼的故障數據聚類清洗方法[J] .科學技術與工程,2021,21(15):6330?6336.

[8] 肖釗,鄧杰文,劉曉明,等.基于運行規律和TICC 算法的風電SCADA 高維時序數據聚類方法[J].機械工程學報,2023,58(23):196?207.

[9] 竇圣霞,程志強.基于混沌關聯維特征的電能表計量多維數據聚類方法[J] .電力需求側管理,2022,24(2):100?104.

作者簡介:

許麗媛(1989—),碩士,研究方向:信息管理。

猜你喜歡
計算機網絡
基于模式匹配的計算機網絡入侵防御系統
云計算下的計算機網絡安全性研究
面向對象的計算機網絡設計軟件系統的開發
關于計算機網絡存儲技術分析
計算機網絡環境下混合式教學模式實踐與探索
計算機網絡信息安全及防護策略
計算機網絡可靠性的提升策略
計算機網絡技術的應用探討
計算機網絡維護工作的思考
淺析計算機網絡管理系統的構建和應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合