基于改進遺傳算法的計算機網絡數據聚類方法

2023-07-21 11:12許麗媛

計算機應用文摘·觸控 2023年14期

摘要為提高計算機網絡數據的聚類效果提出了一種基于改進遺傳算法的計算機網絡數據聚類方法其采用改進遺傳算法構建初始種群利用目標函數提取計算機網絡特征構建計算機網絡數據信息流模型聚類計算機網絡數據仿真結果表明該方法的數據流處理任務完成總時間較短負載均衡性較穩定cpu 占用率較低由此證明該方法數據聚類效果較優

關鍵詞改進遺傳算法計算機網絡數據聚類

中圖法分類號tp399 ?文獻標識碼a

１引言

現階段，人工智能技術得到了飛速發展，計算機網絡已經廣泛應用于各個領域［１］，由此產生了海量的計算機網絡數據，如何有效處理計算機網絡數據成為目前的研究熱點［２］。對計算機網絡數據進行聚類處理［３～５］，可以了解計算機網絡數據之間的相似程度，為后續計算機網絡數據的分類、存儲、查詢等實際應用提供理論基礎。目前，也有相關學者進行了相應的研究，潘繼財［６］針對混合屬性數據，在考慮樣本同聚類中心距離基礎上，提出了一種基于廣義線性模型的混合屬性數據聚類方法。通過計算混合屬性數據的相異度、樣本與聚類集間距實現數據聚類。實驗發現該方法聚類適應度較好，可以有效體現樣本間差異，且具有較高的準確度，所需迭代次數也較少。李立生等［７］提出了一種基于稀疏自編碼的故障數據聚類清洗方法，主要對電網中錄波型故障指示器上傳的海量故障數據進行特征學習與降維，對故障數據的特征進行聚類與清洗，實現去除冗余數據的目的，以便運維人員獲取故障信息及進行后續處理。

遺傳算法可以對海量個體進行種群處理，但傳統的遺傳算法容易陷入局部最優，無法獲取全局最優解。為此，本文提出了一種基于改進遺傳算法的計算機網絡數據聚類方法，以期為海量計算機網絡數據的后續處理提供借鑒。

２計算機網絡數據的數據方法設計

２．１構建初始種群

遺傳算法中初始種群是隨機形成的［８］，在實際計算過程中若沒有充分考慮解空間分布情況，則會導致大量個體全部集中在一個區域內，不利于最優解的搜索。為有效解決上述問題，改進遺傳算法并確保個體均勻分布在求解空間，且保留個體之間差異性。在設定數量以及染色體長度的情況下，隨機２個染色體之間的相似度為：

３仿真實驗

為了能夠進一步驗證該方法（基于改進遺傳算法的計算機網絡數據聚類方法）的有效性，與文獻［６］方法（基于廣義線性模型的混合屬性數據聚類方法）和文獻［７］方法（基于稀疏自編碼的故障數據聚類清洗方法）進行對比實驗分析，對比內容為數據流處理任務完成總時間、負載均衡性、計算機數據聚類過程ＣＰＵ占用率。

３．１仿真環境設置

此實驗過程中的全部實驗環節將在下述實驗環境中完成。

（１）硬件。

內存：５０ＧＢ

ＲＡＭ：１６ＧＢ

ＭＥＭ：４ＧＢ

硬盤：２５６ＧＢ

主頻：３．３ＧＨｚ

顯卡：５１２ＭＢ獨立顯卡

（２）軟件。

操作系統：Ｗｉｎｄｏｗｓ８以上

開發語言：Ｃ＋＋

數據庫：ＳＱＬｓｅｒｖｅｒ２０１９

語料提取工具：ＮＬＰ

向量訓練工具：ＦａｓｔＴｅｘｔ

３．２仿真數據選擇

在此次網絡中存在６個數據服務器以及２０個數據處理節點。將ＫＤＤ數據集中１０％作為訓練集，ｃｏｒｒｅｃｔ文件作為驗證集，共計６組數據集，具體設定結果如表１所列。

３．３仿真分析與結果

３．３．１數據流處理任務完成總時間分析

在此次實驗過程中，為增加實驗的對比性，在實驗網絡節點固定的條件下，將任務數設定為１０，２０，５０，１００，２００５組，對比應用不同方法的計算機網絡數據聚類任務完成總時間，具體實驗結果如圖１所示。

對比上述實驗結果可以看出，隨著任務量的增加，不同方法的計算機網絡數據聚類任務完成總時間存在明顯的差異。本文方法的數據量處理完成總時間相對穩定，整體呈線性關系，無較大波動。與本文方法相比，文獻［６］方法和文獻［７］方法的任務完成總時間波動較大，且均長于文中方法的任務完成總時間。綜合上述實驗結果可以確定，應用本文方法可有效控制聚類時間，從而進一步提升數據流處理速度。

３．３．２負載均衡性分析

對任務量增加后的計算機網絡數據聚類的負載均衡性進行分析，所得結果如圖２所示。

對圖２中內容進行分析可以看出，應用３種方法后，計算機網絡數據聚類的負載均衡性存在明顯的差異。隨著數據聚類任務不斷增加，各數據節點的負載均衡性呈現出下降狀態。但應用本文方法后，計算機網絡數據聚類的負載均衡性系數下降速度較為緩慢，且整體均衡性相對較高。與本文方法相比，應用其他２種對比方法后，計算機網絡數據聚類的負載均衡性下降較為迅速且波動較大，存在負載均衡系數激降的情況，嚴重影響了數據流處理效果。

３．３．３計算機數據聚類過程ＣＰＵ占用率分析

在上述２實驗環節的基礎上，對應用不同方法后的計算機網絡數據聚類任務執行ＣＰＵ占用率進行分析，所得實驗結果如圖３所示。

從圖３所示內容可以看出，當應用本文方法后，實驗網絡中各物理機的ＣＰＵ占用率雖然存在細微的差異，但整體較為穩定。應用文獻［６］方法后，各物理機的ＣＰＵ占用率雖無明顯波動，但整體較高。應用文獻［７］方法后，各物理機的ＣＰＵ占用率存在較大差異。根據上述實驗結果可以確定，本文方法具有較高的應用價值，可進一步提高大數據流處理網絡的穩定性。

４結束語

本文利用改進遺傳算法將計算機網絡數據進行分布式聚類。通過改進遺傳算法構建初始種群均勻分布數據；利用目標函數描述特征選擇最優化，提取計算機網絡特征；構建計算機網絡數據信息流模型計算數據特征向量屬性，聚類計算機網絡數據。實驗結果表明，該方法可以有效聚類計算機網絡數據。

參考文獻：

［１］蘆建蘭．計算機網絡數據庫安全問題研究［Ｊ］．電子測試，２０２１（１４）：１３３?１３４．

［２］諶英敏．數據加密技術在計算機網絡安全中的應用［Ｊ］．通訊世界，２０２１，２８（４）：１３０?１３１．

［３］曾祥銀，鄭伯川，劉丹．基于深度卷積神經網絡和聚類的左右軌道線檢測［Ｊ］．計算機應用，２０２１，４１（８）：２３２４?２３２９．

［４］趙博宇，張長青，陳蕾，等．生成式不完整多視圖數據聚類［Ｊ］．自動化學報，２０２１，４７（８）：１８６７?１８７５．

［５］廖靜倩，張道文，高立，等．基于ＮＡＩＳ事故數據聚類的丁字路口危險場景研究［Ｊ］．汽車安全與節能學報，２０２１，１２（３）：３３６?３４５．

［６］潘繼財．基于廣義線性模型的混合屬性數據聚類方法［Ｊ］．信息技術，２０２１，４５（８）：６?１１．

［７］李立生，劉洋，盧文華，等．基于稀疏自編碼的故障數據聚類清洗方法［Ｊ］．科學技術與工程，２０２１，２１（１５）：６３３０?６３３６．

［８］肖釗，鄧杰文，劉曉明，等．基于運行規律和ＴＩＣＣ算法的風電ＳＣＡＤＡ高維時序數據聚類方法［Ｊ］．機械工程學報，２０２３，５８（２３）：１９６?２０７．

［９］竇圣霞，程志強．基于混沌關聯維特征的電能表計量多維數據聚類方法［Ｊ］．電力需求側管理，２０２２，２４（２）：１００?１０４．

作者簡介：

許麗媛（１９８９—），碩士，研究方向：信息管理。