?

聚類算法在玉米葉片病斑降維識別中的應用

2015-04-17 12:58朱景福李雪
江蘇農業科學 2015年1期
關鍵詞:聚類算法識別

朱景?!±钛?/p>

摘要:為了及時、準確地識別玉米病害,基于聚類識別算法,進行了玉米葉片病斑圖像識別的對比試驗。首先利用LLE算法對玉米圖像降維以提取特征,然后采用K-均值算法、FCM算法和GK算法進行聚類分析,其中GK算法能夠有效識別出玉米病斑圖像,正確識別率高達95.5%??梢?,GK模糊聚類算法對玉米病斑圖像的識別效果較好。

關鍵詞:聚類算法;GK算法;玉米葉片病斑;識別

中圖分類號: TP391.4文獻標志碼: A文章編號:1002-1302(2015)01-0405-02

收稿日期:2014-03-14

基金項目:黑龍江省自然科學基金面上項目(編號:F201428);黑龍江省教育廳面上項目(編號:12541596);黑龍江八一農墾大學校博士啟動金項目(編號:XDB2009-17)。

作者簡介:朱景福(1970—),男,黑龍江克山人,博士,教授,主要從事計算機應用研究。E-mail:jingfuz@163.com。聚類是一種常見的數據分析工具,目的是把大量數據點的集合分成若干類,使得同一類中數據點之間的距離盡可能小,而不同類中數據點之間的距離盡可能大。聚類算法在商業、金融、圖像處理、信息檢索等領域得到了有效的應用[1]。本研究選取3種聚類算法(K-均值算法、FCM算法和GK算法)用于玉米葉片病斑圖像的識別,通過對比研究最終確定將GK算法作為玉米病斑圖像的識別算法。

1聚類算法

傳統的聚類算法主要有K-均值算法、K-Modes算法等[2],其分類屬于硬劃分,具有明顯的類別界限。然而現實中存在大量屬性界限不分明的對象,模糊聚類算法為處理這些對象提供了重要的方法。模糊聚類算法主要有FCM算法、GK算法和KFCM算法等[3]。本研究主要選用聚類算法中經典的K-均值算法、FCM算法及FCM的改進算法(GK算法)進行對比分析。

1.1K-均值算法

K-均值算法(別稱硬C-均值聚類算法)是聚類分析中基于劃分方法的一種經典算法,由于其具有理論可靠、算法簡單、收斂速度快等優點在實踐中得到了廣泛的應用[4]。

把n個向量xj(j=1,2,…,n)分成c個類Gi(i=1,2,…,c),并求出每個類的聚類中心,K-均值算法的處理過程為[1]:(1)隨機選取c個向量作為每個類的聚類中心。(2)初始化隸屬度矩陣U。(3)計算J=∑ci=1Ji=∑ci=1(∑k,xk∈Gi‖xk-ci‖2)的代價函數值。(4)當代價函數值高于一個給定的最小閾值或者連續2次的值之差大于這個最小閾值時,根據公式ci=1|Gi|∑k,xk∈Gixk來更新各個聚類中心,其中|Gi|=∑nj=1uij,然后直接返回步驟(2)繼續運算;否則停止運算。

1.2FCM模糊聚類算法

目前,FCM模糊聚類算法[5]是理論最完善、應用最廣泛的模糊聚類算法之一。FCM模糊聚類算法是K-均值算法的推廣。FCM模糊聚類算法的處理過程為[6]:(1)初始化隸屬度矩陣U。(2)根據公式ci=(∑nk=1umikxk)/(∑nk=1umik)(i=1,2,…,c)計算每個類的聚類中心ci,i=1,2,…,c,其中uik是元素i相對于類k的隸屬度。(3)根據公式Jm=∑nk=1∑ck=1umik‖xk-ci‖2計算代價函數值。(4)當代價函數值高于一個給定的最小閾值或者連續2次的值之差大于這個最小閾值時,根據公式u(t+1)ik=‖xk-c(t)ii‖-2/(m-1)∑cj=1‖xk-c(t)j‖-2/(m-1) 計算新的矩陣U,然后直接返回步驟(2)繼續運算;否則停止運算。

1.3GK模糊聚類算法

GK模糊聚類算法[7]是FCM聚類算法的一種改進,是采用聚類協方差矩陣的自適應距離來度量的方式進行聚類,更能真實地反映不同樣本集合的分布情況[8]。

GK模糊聚類算法的處理過程為[9]:(1)初始化隸屬度矩陣U。(2)根據公式ci=(∑nk=1umikxk)/(∑nk=1umik)(i=1,2,…,c)計算每個類的聚類中心ci,i=1,2,…,c。(3)根據公式Fi=[∑nk=1umik(xk-ci)(xk-ci)T]/∑nk=1umik 計算協方差矩陣Fi,通過Ai=det(Fi)1nF-1i求出正定對稱矩陣Ai。(4)根據D2ik=‖xk-ci‖2Ai=(xk-cj)TAi(xk-ci)計算距離范數D2ik。(5)根據uik=1∑cj=1(Dik/Djk2/(m-1)更新矩陣U,當連續2次的值之差小于一個給定的最小閾值時則停止,否則轉向步驟(2)。

2聚類數據的獲取

2.1樣本圖像的采集和預處理

2.1.1樣本圖像的采集在玉米病害比較嚴重的7—9月,在黑龍江八一農墾大學試驗田中采用SONY DSC-W350D型號相機采集玉米大斑病的病害圖像,至少采集300幅無病害圖像和300幅病害圖像(圖1)。

2.1.2樣本圖像的預處理運用圖像分割算法把無病害圖像(圖2-a)、病害圖像(圖2-b)分別分割成只含有綠色葉片的圖像、只含有葉片背景和病斑的圖像[10],圖像大小均為131像素×86像素。分別選取100幅無病害圖像、病害圖像,為后續試驗作準備。

2.2樣本數據的降維

一幅葉片圖像的維數是非常高的,巨大的計算量使處理速度變得非常慢,因此需要對預處理后的數據進行降維。局部線性嵌入(LLE)算法被稱為非線性降維算法的里程碑,因此選用LLE算法對預處理后的200幅圖像進行降維以提取特征,分別降到2、3、4、5、10、20、30、50維并保存,其中降至2、3維后的效果如圖3所示。

3聚類識別對比試驗

為了探究哪種聚類算法更適合玉米病斑圖像的識別,采用K-均值算法、FCM算法和GK算法對降維后的數據進行聚類(聚成2類)分析,得到的正識率(試驗證明:誤識率=1-正識率,漏識率=0)如表1所示。從表1可知,GK算法的正識率雖然在30維時稍低于K-均值算法和FCM算法,但整體上GK算法的聚類正識率遠遠高于K-均值算法和FCM算法。endprint

玉米病害圖像本身具有模糊性,在病斑邊界上的像素中常常包含病斑和葉片背景2種像素,病斑和背景的分界線不是很清晰。因此,基于模糊集合理論的模糊聚類算法對病斑圖像的正確識別率高于傳統的聚類算法。由表1可見,GK算法的聚類正識率明顯高于FCM算法,證明GK算法是對FCM算法的改進。

表13種算法的正識率

算法不同維數下的正識率(%)2維3維4維5維10維20維30維50維K-均值76.576.576.576.576.576.576.576.5FCM76.576.576.576.576.577.077.577.5GK79.588.589.095.595.595.074.585.5

4總結

本研究均采用Matlab 7.1編程語言,針對玉米病斑圖像模糊和不確定的特點,選用模糊聚類算法中的GK模糊聚類算法,成功地識別出玉米的病斑圖像。在對200幅圖像進行識別的試驗中,GK算法的正識率達到95.5%,遠遠高于K-均值算法和FCM算法。因此,最終選取GK模糊聚類算法作為玉米病斑圖像的識別方法。

參考文獻:

[1]王慧. C-均值聚類算法的改進研究[D]. 開封:河南大學,2011:1-27.

[2]梁吉業,白亮,曹付元. 基于新的距離度量的K-Modes聚類算法[J]. 計算機研究與發展,2010,47(10):1749-1755.

[3]蔡威. 模糊聚類算法在數據挖掘中的應用研究[D]. 蘭州:蘭州交通大學,2012:13-29.

[4]賁志偉,趙勛杰. 基于改進的K均值聚類算法提取彩色圖像有意義區域[J]. 計算機應用與軟件,2010,27(9):11-13.

[5]Kannan S R,Devi R,Ramathilagam S,et al. Effective FCM noise clustering algorithms in medical images[J]. Computers in Biology and Medicine,2013,43(2):73-83.

[6]張鴻彥,許奇功. 模糊聚類算法的優化設計[J]. 河南大學學報:自然科學版,2013,43(4):451-454.

[7]Dagher I. Complex fuzzy c-means algorithm[J]. Artificial Intelligence Review,2012,38(1):25-39.

[8]張妨妨,錢雪忠. 改進的GK聚類算法[J]. 計算機應用,2012,32(9):2476-2479.

[9]王書濤,李亮,張淑清,等. 基于EEMD樣本熵和GK模糊聚類的機械故障識別[J]. 中國機械工程,2013,24(22):3036-3040,3044.

[10]張飛云. 基于提升小波和學習向量量化神經網絡的小麥病害圖像識別[J]. 江蘇農業科學,2013,41(5):103-106.楊靖華,陳龍正,徐海,等. 蘇中地區早春連棟大棚不同覆蓋層次間的氣溫變化[J]. 江蘇農業科學,2015,43(1):407-408.endprint

猜你喜歡
聚類算法識別
基于K?均值與AGNES聚類算法的校園網行為分析系統研究
法學意義上的弱者識別問題研究
青島市中山公園園林樹木易混淆品種識別
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合