?

云計算視域下數據挖掘算法探討

2024-02-03 08:52楊小龍
信息記錄材料 2024年1期
關鍵詞:分布式計算數據挖掘聚類

楊小龍

(福州軟件職業技術學院智能產業學院 福建 福州 350211)

0 引言

在現代互聯網技術不斷發展與智能化水平越來越高的背景下,物聯網技術與人工智能技術得到了進一步創新與發展,許多智能化設備、移動終端等獲得了廣泛的運用,無時無刻不在產生大量的數據信息[1]。 云計算技術依托虛擬化技術、分布式計算技術以及數據存儲技術等多種方式,實現對不同計算資源的科學分配與使用,從而有效解決大規模數據處理問題。 K?means 算法是當下應用較為普遍的聚類算法,廣泛運用在數據挖掘與分析等行業。 依托云計算技術,K?means 算法能夠有效發揮分布式計算與存儲資源的優勢,進一步縮短算法的處理時間[2]。 本文從云計算視角出發探究數據挖掘算法,以期研究成果能夠為相關研究工作者提供幫助。

1 數據挖掘算法與云計算概述

1.1 數據挖掘算法

從20 世紀60 年代開始,數據挖掘開始慢慢進入人們視線中,屬于一種級別較高的計算機數據處理算法,根本目的是從海量的、充滿噪聲的、模糊的以及隨機的數據信息中挖掘出需要的、有較高價值的數據信息的過程性算法[3]。 在實際進行數據挖掘過程中,重點涵蓋了五個流程,分別為云端大規模數據信息的獲取、數據信息初步處理、數據挖掘、提煉結果科學評估和獲得有價值信息。 以往的數據挖掘工作一般是建立在十分煩瑣的數學邏輯運算模型基礎之上,需要相關工作者投入較多時間與精力進行計算以后,才可以獲得數據挖掘的準確結果,從而導致傳統數據挖掘不僅具有很高的專業性,同時復雜程度也較高。 隨著云計算技術的不斷發展,以云計算為載體打造相應平臺能夠高效率地、不間斷地進行分布式并行數據挖掘工作,同時因其擁有數據挖掘技術要求不高、系統智能分配計算等優勢,使得數據挖掘工作速度得到顯著改善[4]。

1.2 云計算

在較長一段時間內,國內外學者都沒有針對云計算給出統一標準的定義,在眾多解釋當中最具影響力的還是美國國家標準技術研究院提出的概念,即依托互聯網獲取共享計算資源,同時基于最小的管理成本與最準確的計算方法得到結果的全新IT 運算方式[5]。 我國許多學者也提出了自身的看法與建議,如一些學者將云計算理解為一種計算效率高的分布式系統,將Web 2.0 技術作為重中之重,依托抽象虛擬的互聯網資源,為計算機使用者帶來計算機存儲與計算服務等。 2014 年,中國電子技術標準化研究院在《云計算標準化白皮書》中指出:“隨著云計算的不斷發展,業界對云計算的定義認識已趨于統一,目前云計算的定義以ISO/IEC JTC1 和ITU?T 組成的聯合工作組制定的國際標準 ISO/IEC17788 《 云計算詞匯與概述(Information technology–Cloud Computing–Overview and vocabulary)DIS 版的定義為主?!痹谠摌藴手袑⒃朴嬎愣x為一種可伸縮、彈性、共享的物理和虛擬資源池以按需自服務的方式供應和管理,并提供網絡訪問的模式。 現階段,針對云計算支撐技術進行研究的人員越來越多,逐漸朝向多樣化方向發展, 其中以Hadoop、 HDFS 以及MapReduce 編程模型為重點,依托配套設施服務、平臺服務以及軟件服務等達成計算功能[6]。

2 基于云計算的Hadoop 分布式系統結構

Hadoop 屬于開源分布系統中的一種,建立在GFS 模型以及MapReduce 模型基礎之上,重點涵蓋了分布式文件系統以及分布式計算架構MapReduce、數據倉庫Hive 以及數據庫HBase 等部分,被廣泛使用在海量數據信息處理與數據存儲等方面,擁有較強的虛擬性、拓展性以及穩定性,可以基于集群節點的延伸來完成大量數據集的高效處理[7]。 一般分布式文件系統的數據放置在Hadoop 系統的底層位置,實現的主要功能是完成Client 用戶機主從節點的文件儲存,同時在分布式計算架構MapReduce 程序運行中提供相應的數據集。 此外,分布式文件系統還具有良好的兼容性。 HBase 數據庫屬于一種列存儲模型,重點涵蓋了Region 表、Client API 端口等,能夠將鍵/值的不同數據類型劃分到相應的RegionServer 組件中,最后完成對數據信息的處理與儲存。

分布式計算架構MapReduce 模型以HBase 數據庫為基礎,是一種包含海量數據的數據集并行運算模型,重點負責將導入的各種等待運算的數據信息拆分為多個小數據段,之后將不同的數據段劃分到相應的Map 和Reduce 任務當中,緊接著通過二元組鍵/值對各個任務函數進行計算,同時促使鍵關鍵值、Value 數值和Reduce 函數緊密結合到一起,打造小規模的Value 集,最后導出相應的數據信息。

在分布式計算架構MapReduce 模型當中,Pig Latin、Sqoop 以及Hive 數據庫等相關數據分析的部件均位于模型上部,從而實現云計算平臺的數據信息導入、運用以及導出。 在此過程中,不同數據分析部件發揮的功能各不相同。 具體來說,Hive 實現的主要功能是分布式系統結構Hadoop 的數據收集與轉化等,能夠使SQL 信息以及SQL查詢指令等變化成MapReduce,之后再運行相關程序;Pig Latin 實現的主要功能是對大規模數據信息并行計算進行程序編寫,同時提供相應的操作端口;Sqoop 實現的主要功能是完成MySQL 數據庫、Oracle 數據庫等中信息的輸入與輸出工作,能夠完成多個數據庫中HDFS 數據信息的發送與接收。

3 基于云計算視域的K?means 數據挖掘算法

在處理云計算平臺中大規模異構數據信息時,選取建立在Hadoop 分布式系統架構基礎之上的K?means 數據挖掘算法,實現對同一類型訪問數據的劃分,同時給出各個樣本參數到聚類中心K 的長度,設定為參數粒子的最高適應度值Gbest,依托對不同聚類數組進行迭代處理,使得獲取到的所有參數粒子的Gbest 位置均為最佳位置。 在實際進行算法執行過程中,一般包含以下幾部分。

第一,對將要處理的各個聚類數據集X=(x1,x2,…,xn)T進行界定,公式中xn指云計算平臺中眾多數據信息的第n個,包含大量數據點構成的n維數據集。 公式如式(1)所示。

第三,依托極大似然評估創設目標函數,獲得指定數據簇中數據目標的偏差平方和。 正常來說,P表示為數據目標的具體空間方位,mi表示wi數據簇中的數據參數均值,這時能夠給出K?means 數據挖掘算法的評估標準如式(2)所示。

K?means 數據挖掘算法能夠實現對多種類型數據信息的分組聚類核算,計算過程較為簡便,同時有著較高的空間復雜性。 在實際使用該數據挖掘算法進行大量數據挖掘時,也存在較多問題,具體如下:

第一,K?means 數據挖掘算法是將導入數據的平均值當成初始聚類關鍵點,在這種情況下可能造成一些孤立點被極值所限制,導致最終獲得的聚類結果精準性較低。

第二,該數據挖掘算法當中規劃的初始聚類中心K是基于不確定方式進行選擇的,從而使得結果具有較強的隨意性與不穩定性。

第三,K?means 數據挖掘算法當中規劃的數據聚類數量為K,只能夠滿足規模不大的數據信息聚類研究。 當數據信息規模變大,聚類運算工作量會越來越大,從而導致K?means 算法的數據相似度計算速度變慢、并行計算任務加重,最終獲得的聚類實驗分析結果的準確性也不高。

4 基于云計算視域的K?means 數據挖掘算法優化

從上文可知,K?means 數據挖掘算法在數據信息收集、初始聚類中心確定以及數據聚類數量等部分存在一定的問題。 為了進一步提高K?means 數據挖掘算法的性能與準確性,針對現有不足進行優化,從而不斷提高數據挖掘結果的準確性與可靠性。

在確定不同數據點和初始聚類中心點的間距時,需要建立在兩個非常相似的樣本值不會出現在相同數據簇的理念基礎之上,對數據簇收集范疇、聚類中心點以及數據分布情況等進行深入研究。

第一,對數據簇收集范疇進行確定時,需要對兩個方面進行定義。 首先,選取云計算平臺中的某個點P,將P點看作是空間區域的中心,半徑值為r,形成的區間是P的鄰域;其次,云計算平臺中的某個點P,半徑值為r的區間內包含的數據點數量,看成是P的數據分布密度。

第二,將云計算平臺中包含的各個數據采集樣本,傳輸到Client 用戶機主從執行節點上。 再通過相應執行節點來引入Map 函數,獲得多種數據信息樣本的待選點。然后依托Reduce 函數對每個數據待選點進行分析,得到導出鍵值對。 結合上述兩個定義,進一步明確初始聚類的待選中心點。

第三,構建SampleChange 變化函數,對各項數據集進行初步分析與處理之后再傳輸到K?means 進行聚類。 通過這種方式可以很好地屏蔽孤立點與噪聲點。

第四,構建SampleMap 函數以及SampleReduce 函數,依托Map 函數的操作鍵值<key,value>(key 表示現階段數據行和初始數據行兩者的差,value 表示執行節點坐標參數),對數據點x 和聚類待選中心點存在的數值差進行核算。 當獲得的結果超過r,這時將此數據點當成新聚類待選中心點, 并導出新待選點的鍵值。 此外, 依托SampleReduce 函數對<key,value>的數據分布情況進行分析與運算,并將獲得的結果和規劃的數據密度值進行比對。 如果小于0,便需要拋棄這個點;反之如果大于0,需要用該點來替換原有的聚類待選中心點,并設定為<key’,value’>。 K?means 數據挖掘算法優化后的實施流程如圖1 所示。

圖1 K?means 數據挖掘算法優化后的實施流程

5 實驗與結果分析

5.1 實驗環境

為了更好地驗證優化后的K?means 數據挖掘算法的性能,采用實驗對比的方式探討原有K?means 與優化后的K?means 在數據挖掘上的差異。 為確保實驗結果的準確性與可靠性,選用的處理器規格為Intel(R)Core(TM)i5-4590 CPU @ 3.30 GHz,運行內存為12 GB;使用固態存儲硬盤,內存為515 GB;選用的系統為最新的Windows 11,并將MATLAB R2019a 作為開發環境;使用C ++以及MATLAB 計算機語言。

5.2 收集互聯網實驗數據

從某個互聯網平臺中獲取經濟和醫療方面的2 000個樣本參數,分別基于優化前與優化后的K?means 數據挖掘算法進行MATLAB 實驗,共計實施8 次。 優化后的K?means 數據挖掘算法的半徑值r設為7,參數分布密度數值F 為4,所有數據點樣本均存在4 類屬性,從而將2 000個數據樣本劃分成7 種類型。

5.3 實驗結果

分別采用兩種數據挖掘算法對數據樣本進行初步處理,得到兩者的聚類分析結果,具體如表1 所示。

表1 不同算法聚類分析結果

從表1 中可以看出,與未優化的K?means 數據挖掘算法相比,優化后的算法在處理各個數據簇樣本時,不管是數據收集覆蓋率,還是數據中心點確定準確率都更好,同時優化的K?means 數據挖掘算法在不正確數據數量上要更低。 由此證明,優化的K?means 數據挖掘算法具有良好的應用效果。

6 結語

綜上所述,基于云計算背景的數據挖掘算法經過大量科研人員的不懈努力,已經獲得了較多優異的研究成果,許多數據挖掘算法已經被深入使用到科研以及工業等領域。 隨著數據規模的不斷增長,需求的更加多樣化以及企業業務的更加復雜化,以往的K?means 數據挖掘算法顯得較為落后,在數據處理效率以及算法性能等方面都不盡如人意,而本次提出的優化的K?means 數據挖掘算法能夠很好地彌補不足,表現出較高的應用價值。

猜你喜歡
分布式計算數據挖掘聚類
探討人工智能與數據挖掘發展趨勢
基于DBSACN聚類算法的XML文檔聚類
基于并行計算的大數據挖掘在電網中的應用
基于高斯混合聚類的陣列干涉SAR三維成像
基于云計算的移動學習平臺設計與實現
云計算中MapReduce分布式并行處理框架的研究與搭建
面向異構分布式計算環境的并行任務調度優化方法
一種基于Hadoop的大數據挖掘云服務及應用
一種層次初始的聚類個數自適應的聚類方法研究
自適應確定K-means算法的聚類數:以遙感圖像聚類為例
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合