?

聚類分析算法應用研究

2017-04-01 16:27張麟潘紅巖
數字技術與應用 2016年10期
關鍵詞:應用研究

張麟+潘紅巖

摘要:聚類分析算法是數據挖掘中常用的一種算法,通過該算法把一些無規則數據提煉成有規則數據,為其領域發展提供了技術保障。本論文主要從聚類分析算法、聚類分析算法描述兩方面進行闡述聚類分析算法應用研究,希望能為研究數據挖掘的專家與學者提供理論參考依據,為數據挖掘快速發展提供技術保障。

關鍵詞:聚類分析算法 應用研究 算法描述

中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2016)10-0143-01

聚類分析(Cluster Analysis)就是將一組物理事物或抽象對象按照某種聚類規則或檢驗度量函數標準劃分不同聚集組別的過程,其中被劃分的若干相對獨立的組為一個類,是一種無監督的學習方法。聚類分析方法是數據挖掘技術中的數據分析普遍運用方法之一,其功能最終實現被研究數據按照相關聚類分析算法進行聚類,對聚類的事物對象,最終要達到相似度大的對象在同一個聚類群組中,相似度小的對象在不同的聚類群組中,從而歸納出聚類數據對象的特征性。聚類分析中的“類(Cluster)”就是一組相似度較高的數據集合。聚類分析能夠將一組事物或數據按照聚類算法規則進行聚類處理,根據聚類算法規則的不同而實現各自側重的聚類分析結果。

1 聚類分析算法

根據聚類對象數據類型的不同,聚類分析分為R型聚類和Q型聚類,R型聚類是對變量型數據的聚類分析,Q型聚類是對具體觀測值數據的聚類分析。對數據對象的聚類分析要借助于聚類分析算法來實現完成,聚類分析算法的基本定義為:

目標數據集合,對于數據集合中的任一數據元素,具有個特征屬性,任一數據元素的屬性特征向量集表示為。通過特定的數據分析處理準則對目標數據集進行聚類處理后,目標數據集被劃分成具有個子集的數據類集合,,聚類結果數據集必須滿足:

根據聚類分析所采取分析方法的不同,聚類分析算法分為基于劃分的聚類分析算法、基于層次的聚類分析算法、基于密度的聚類分析算法、基于網格的聚類分析算法、基于模型的聚類分析算法。

2 K—means聚類分析算法描述

對于給定包含個數據對象的數據集,按照標準偏移量的目標函數進行劃分,形成K個聚類。具體操作過程為:

第一步:數據規范化處理。對數據對象進行規范化預處理,消除非法值及極值影響。

第二步:數據準備。計算各科標準差:

第三步:計算各初始聚類中心。

第四步:計算與聚類中心最近鄰的數據對象,并合并成新類。

第五步:重新計算聚類中心值。

第六步:驗證聚類收斂性。

if 聚類中心值無新變化

結束聚類 else 轉入第四步 endif

第七步:進行各個類數據分析。

3 結語

總之,聚類分析算法是數據挖掘中一種常用算法,在數據挖掘過程中有很多算法,每種算法都有自己的優缺點,數據挖掘是一項極其復雜過程,一般情況我們都是多種算法結合起來一起應用,目的提高工作效率,提高數據挖掘的準確性,數據挖掘技術在我國應用領域比較廣,并且取得一定成績,在當今大數據時代,研究數據挖掘具有一定的現實意義,具有深遠的研究價值。

參考文獻

[1]吳多智.基于語義的手機類產品用戶評論維度挖掘研究[J].安徽電子信息職業技術學院學報,2016(03).

[2]孫永輝.聚類分析在學生成績分析中的應用[J].中國管理信息化,2016(06).

[3]巨曉璇,鄒小斌,屈直,劉春敏.層次聚類算法在氣象客戶細分中的應用[J].河南科技,2015(11).

[4]許進文.數據挖掘中聚類分析算法及應用研究[J].計算機光盤軟件與應用,2013(06).

收稿日期:2016-08-18

作者簡介:張麟(1983—),男,黑龍江哈爾濱人,碩士,工程師,研究方向:數據庫、數據挖掘。

猜你喜歡
應用研究
節奏訓練在初中音樂課程教學中的應用研究
AG接入技術在固網NGN的應用研究
空域分類關鍵技術及應用研究
分層教學,兼顧全體
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合