?

融合優化可調Q因子小波變換的改進密度峰值聚類算法

2024-03-05 16:39史曼曼宋朝煬張景祥?k
計算機應用研究 2024年2期
關鍵詞:粒子群優化算法主成分分析

史曼曼 宋朝煬 張景祥?k

收稿日期:2023-06-04;修回日期:2023-07-26? 基金項目:國家自然科學基金資助項目(62176105)

作者簡介:史曼曼(1998—),女,河南商丘人,碩士研究生,主要研究方向為人工智能和模式識別;宋朝煬(1996—),男,江蘇南京人,碩士研究生,主要研究方向為人工智能和模式識別;張景祥(1977—),男(通信作者),副教授,碩導,博士,主要研究方向為人工智能、模式識別和智能計算及應用(zhangjingxiang@jiangnan.edu.cn).

摘? 要:為提升時間序列的聚類精度,提出一種融合優化可調Q因子小波變換的改進密度峰值聚類(improved density peaks clustering based on optimal tunable Q-factor wavelet transform,OTQWT-IDPC)算法,該算法利用可調Q因子小波變換的能量優化選擇策略及改進粒子群優化算法確定的最佳Q因子分解時序信號,通過最優特征子帶的能量、均值、標準差和模糊熵構建特征子空間,并采用主成分分析降低特征維度,以減少特征冗余。同時,考慮到距離較遠而周圍密集程度較大的K近鄰樣本對局部密度的貢獻率,引入權重系數及K近鄰重新定義DPC的局部密度,并利用共享最近鄰描述樣本間的相似性。在BONN癲癇腦電信號和CWRU滾動軸承數據集上進行對比實驗,結果表明,該算法的聚類精度分別為95%、94%,且Jacarrd、FMI和F1值指標均優于其他對比算法,證明了OTQWT-IDPC算法的有效性。

關鍵詞:密度峰值聚類算法;可調Q因子小波變換;粒子群優化算法;主成分分析

中圖分類號:TP181??? 文獻標志碼:A

文章編號:1001-3695(2024)02-022-0466-07

doi:10.19734/j.issn.1001-3695.2023.06.0241

Improved density peaks clustering algorithm combining optimal tunable

Q-factor wavelet transform

Shi Manman,Song Chaoyang,Zhang Jingxiang

(School of Science,Jiangnan University,Wuxi Jiangsu 214122,China)

Abstract:In order to improve the accuracy of time series clustering,this paper proposed an improved density peak clustering algorithm based on optimal tunable Q-factor wavelet transform.The algorithm used energy optimization strategy of tunable Q-factor wavelet transform and the optimal Q-factor determined by improved particle swarm optimization algorithm to decompose the time series signal.Through the energy,mean,standard deviation and fuzzy entropy of the optimal characteristic sub-bands,the algorithm constructed the characteristic subspace.And it used principal component analysis to reduce feature dimensions to debase feature redundancy.At the same time,considering the contribution rates of K-nearest neighbor samples that are far away and have a higher degree of surrounding density to local density,it introduced weight coefficients and K-nearest neighbors to redefine the local density of DPC,and used shared nearest neighbors to describe the similarity between samples.OTQWT-IDPC algorithm was compared with its comparison algorithms using BONN epileptic EEG and CWRU rolling bearings datasets.The experimental results show that the accuracy of OTQWT-IDPC algorithm on BONN and CWRU are 94% and 92%.Its evaluation indicators such as Jacarrd,FMI and F1 are superior to other comparative algorithms,which proves the effectiveness.

Key words:density peaks clustering;tunable Q-factor wavelet transform;particle swarm optimization;principal component analysis

0? 引言

聚類算法作為機器學習中的一種無監督學習算法,主要用于對無標簽樣本進行劃分,在數據挖掘、圖像處理和計算機視覺等領域應用廣泛[1]。近年來,時間序列聚類逐漸成為研究熱點,并已取得較為豐富的成果。張雄等人[2]結合小波包變換和Mean-Shift算法,有效識別了不同故障程度的滾動軸承信號;He等人[3]集成快速相似度度量和約束傳播方法,提出新的半監督時間序列聚類框架,解決了半監督聚類在處理時間序列數據時效果不佳的問題;Li等人[4]引入分數階相關和歸一化形式創建了基于分數階形狀的距離,并結合時間序列平均算法確定聚類中心,提升了聚類精度;Gao等人[5] 提出一種自適應截斷距離的密度峰值聚類算法,并通過短時傅里葉變換和貝葉斯分解提取EEG信號特征,提高了癲癇檢測的準確率;DUrso等人[6]結合小波變換、區間數據分析和模糊C-Medoids聚類算法對間隔時間序列進行聚類,獲得了較好的聚類性能;Bahramlou等人[7]提出并行和分布式的集成聚類和時間序列數據預測框架,最終獲得的聚類精度優于單一聚類算法。上述方法雖取得一定成果,但受噪聲影響較大,使得提取的特征不夠精準且聚類效果不佳。

密度峰值聚類算法(density peaks clustering,DPC)能夠快速找到任意形狀數據的密度峰值[8],獲得的聚類效果較好,在時間序列聚類中應用廣泛。但由于DPC的樣本局部密度未考慮類簇間密集程度的差異,且分配策略易產生連帶錯誤,導致聚類效果不佳。針對DPC局部密度定義的缺陷,趙嘉等人[9]提出一種K近鄰和加權相似性的密度峰值聚類算法(density peaks clustering algorithm with K-nearest neighbors and weighted similarity,DPC-KWS),該算法通過K近鄰信息重新定義局部密度,調節了不同類簇樣本間局部密度的大??;Zhang等人[10]提出基于平衡密度和連通性的新型DPC算法,通過平衡密度消除了不同簇之間的密度差異,更能體現樣本的局部信息;楊震等人[11]結合加權K近鄰的思想,重新計算樣本局部密度,該局部密度能準確找到密度峰值,提高了算法的聚類精度。這些對局部密度的改進算法雖然在一定程度上提升了聚類效果,但仍難以更準確地找到密度峰值。

針對DPC分配策略設計的不足,陳蔚昌等人[12]提出一種近鄰優化密度峰值聚類(density peaks clustering with nearest neighbor optimization for data with uneven density distribution,DPC-NN)算法,該算法引入共享近鄰計算樣本間的相似性,并通過構造相似矩陣使同一類簇樣本聯系更緊密,避免錯誤分配樣本;Qin等人[13]針對DPC分配策略引起的連鎖反應,提出基于標簽傳播和相似度度量的兩步分配策略,該策略首先為靠近聚類中心的樣本分配標簽,其次根據與未分配樣本距離最近的已標簽數據,完成對剩余點的標簽賦值,提升了算法的聚類性能;Sun等人[14]構造相互近鄰度和相似度,并給出相似集、相似域、和預測集等,提出新的優化分配策略,獲得了良好的聚類效果。上述改進算法在分配剩余樣本時未考慮樣本的真實分布,仍導致一些樣本被分配錯誤。

時間序列數據隨時間變化會產生噪聲,如何有效地處理噪聲對提升聚類效果十分關鍵。傅里葉變換[15]、短時傅里葉變換[16]和小波變換[17]等方法被廣泛應用于處理信號噪聲,但這些方法在選擇窗函數寬度或小波基函數上仍是一個難題??烧{Q因子小波變換(tunable Q-factor wavelet transform,TQWT)[18]通過調節品質因子Q匹配信號的振蕩信息,并利用雙通道濾波器對信號進行濾波,無須選擇窗函數寬度和小波基函數,不僅有效地去除了噪聲,還準確地提取了時序信號局部特征。TQWT的分解性能取決于品質因子Q等參數的選取,為了合理地確定分解參數,Khare等人[19]通過優化算法使分解目標函數的均方誤差最小,自適應地選擇分解參數;Zhang等人[20]利用多種群量子遺傳算法對品質因子Q進行優化,有效分離和提取了時序信號;張樂等人[21]通過貝葉斯優化算法在TQWT參數空間內求取熵—峭綜合目標函數最優解,更準確地提取了軸承故障信號特征。上述方法雖然在一定程度上有效提取了時序信號局部特征,但在參數優化過程中存在耗費資源、穩定性差和易產生特征冗余等問題。

針對上述問題,本文提出一種融合優化可調Q因子小波變換的改進密度峰值聚類(improved density peaks clustering based on optimal tunable Q-factor wavelet transform,OTQWT-IDPC)算法。OTQWT-IDPC算法結合改進粒子群優化算法構造新的TQWT參數優化策略,定義排列熵—峭度之比(PEK)指標,通過優化的分解參數構造Q因子小波變換,并以能量、均值、標準差和模糊熵表示最優子帶特征,更準確地提取了時序信號局部特征;同時,通過引入權重系數,全面度量了距離較遠而周圍密集程度較大的K近鄰點對樣本局部密度的貢獻率,結合K近鄰重新定義樣本局部密度,并通過共享最近鄰構造新的分配策略,更準確地找到了密度峰值,避免了DPC算法的分配連帶錯誤問題,提升了時序信號的聚類精度。

1? 相關知識

1.1? TQWT

時頻分析方法將一維時域信號映射到二維時頻域平面,全面反映了非平穩信號的時頻聯合特征,主要包括短時傅里葉變換(short time Fourier transform)和小波變換(wavelet transform,WT)等。

作為時頻分析方法之一,可調Q因子小波變換(tunable Q-factor wavelet transform,TQWT)通過選取適合的品質因子Q、冗余率r以及分解層數J,匹配原信號的振蕩成分,進而提取信號的振蕩信息[18]。在原始信號X(n)的TQWT分解中,利用低通濾波器H0(w)和高通濾波器H1(w)進行濾波之后,再對信號進行尺度縮放,H0(w)和H1(w)的公式分別為

H0(ω)=1|ω|≤(1-β)π

θ(ω+(β-1)πα+β-1)(1-β)π<|ω|<απ

0απ≤|ω|≤π(1)

H1(ω)=0|ω|≤(1-β)π

θ(απ-ωα+β-1)(1-β)π<|ω|<απ

1απ≤|ω|≤π(2)

其中:α和β分別為低通尺度參數和高通尺度參數,滿足0<α<1,0<β≤1,且α+β>1。θ(ω)為頻率響應函數,公式為:θ(ω)=0.5(1+cos ω)2-cos ω,|ω|≤π,滿足θ2(ω)+θ2(π-ω)=1。

TQWT中的品質因子Q定義為中心頻率ωc與帶寬BW的比值,且與尺度參數β有關,公式為

Q=ωcBW=2-ββ(3)

冗余率r由尺度參數α和β定義,公式為

r=β1-α(4)

文獻[18]定義了最大分解層數Jmax,公式為

Jmax=lnNβ8ln1α」=lnN4(Q+1)lnQ+1Q+1-2r」(5)

其中:“」”為向下取整函數;N為分析信號的長度。

1.2? DPC算法

密度峰值聚類算法(density peaks clustering,DPC)算法通過尋找密度峰值確定聚類中心,并依據分配策略對剩余樣本進行歸類[8]。DPC算法存在兩個假設:a)類簇中心被類簇內其他低密度數據點包圍;b)類簇中心之間的距離相對較遠。

DPC算法以局部密度ρi和相對距離δi為基礎。局部密度ρi存在截斷核和高斯核兩種定義形式,截斷核的局部密度計算公式為

ρi=∑i≠jχ(dij-dc),χ(x)=1x<0

0x≥0(6)

高斯核的局部密度計算公式為

ρi=∑i≠jexp[-(dijdc)2](7)

其中:dij為樣本點i和j之間的歐氏距離;dc為樣本點i的鄰域截斷距離。

相對距離δi為樣本點i與其他密度更高點的最小距離,定義如下:

δi=min(dij)ρi<ρj

max(dij)ρi=max(ρ)(8)

密度峰值通常為局部密度ρi較高且相對距離δi較大的樣本點。DPC算法定義決策值γi較大的樣本為密度峰值,公式為:γi=ρi×δi。

密度峰值確定后,將剩余樣本分配給與其距離最近且局部密度最高的類簇,從而完成聚類。

2? OTQWT-IDPC算法

2.1? OTQWT-IDPC算法框架

為了提升時序信號的聚類精度,本文首先提出一種優化可調Q因子小波變換,該方法結合改進粒子群優化算法確定最佳的TQWT分解參數,并通過最優特征子帶的能量、均值、標準差和模糊熵構建特征子空間;其次,為減少特征冗余,采用主成分分析對特征子空間進行降維;最后,為了提高算法的聚類效果,本文提出一種改進的DPC算法。OTQWT-IDPC算法具體流程如圖1所示。

2.2? OTQWT

TQWT的分解性能依賴于參數Q、r、J的選擇,以BONN時間序列數據為例,對同一信號在不同參數下進行TQWT分解,獲得的低頻子帶信號如圖2所示??梢钥闯?,Q值越大,子帶信號的波形越平穩;r值越大,子帶信號的波形越平穩,且信號長度也隨之增大;J值越大,子帶信號的波形越振蕩,信號長度隨之減小。因此,為更好地提取時序信號局部特征,提升不同簇的聚類效果,需確定適合的分解參數。使用遍歷方法求解Q、r、J存在耗時長且對小波基函數依賴較大等問題,基于文獻[22]提出的改進粒子群優化算法(LPSPSO),本文構造了一種新的TQWT參數優化策略,即優化可調Q因子小波變換(optimal tunable Q-factor wavelet transform,OTQWT)。OTQWT既能更準確地提取時序信號局部特征,又兼顧了LPSPSO算法的時間復雜度低、收斂速度快以及不易陷入局部最優等優勢。

LPSPSO通過構造Lévy flight、冪函數、Singer映射等,自適應地調整慣性權重ω和學習因子c1、c2等參數,解決了粒子群優化算法(particle swarm optimization,PSO)存在的收斂速度慢、穩定性低以及易陷入局部最優等問題,更新公式如下:

ω(t)=ωmax+ωmin2+x(-ttmax)(ωmax-ωmin)2(9)

c1(t)=a+e(-ttmax)

c2(t)=b-c1(t)(10)

γ2=xk+1=μ(7.86xk-23.3x2k+28.75x3k-13.3x4k)(11)

其中:ωmax和ωmin分別為慣性權重的最大值和最小值,根據經驗,取ωmax=0.95,ωmin=0.40;tmax為最大迭代次數;t為當前迭代次數;a=1.25,b=2.50,μ為0.9~1.08的參數。

因此,參數自適應更新后粒子的速度vis和位置xis更新公式為

vt+1is=ω(t)vtis+c1(t)μ1(ptis-xtis)+c2(t)μ2(ptgs-xtis)(12)

xt+1is=xt+1is+vt+1is(13)

其中:xti=[xti1,xti2,xti3,…,xtiS],且xtiS∈[LS,HS],LS和HS分別為搜索空間S維的上限和下限。vti=[vti1,vti2,vti3,…,vtiS],vtiS∈[vtmin,S,vtmax,S],vtmin,S和vtmax,S分別為粒子在S維的最小速度和最大速度。pti和ptg分別為粒子的個體最優解和全局最優解,pti=[pti1,pti2,pti3,…,ptiS],ptg=[ptg1,ptg2,ptg3,…,ptgS],1≤s≤S且1≤i≤N。

OTQWT在利用LPSPSO優化(Q,r,J)的過程中需建立合適的適應度函數f(x)?;谂帕徐兀?3]具有較強的抗噪聲能力和魯棒性,且峭度對信號的沖擊成分及其敏感,本文構造一種評估時序信號特征顯著性的排列熵和峭度之比(PEK)指標,公式為

PEKj=PEjKurtj(14)

其中:PEj表示第j層子帶信號的排列熵,公式為PEj=-1Nj∑Nji=1pjiln pji,Nj為第j層子帶信號長度,pji為第j層子帶的第i個小波系數的概率,滿足∑Nji=1pji=1;Kurtj表示第j層子帶信號的峭度,公式為Kurtj=1Nj∑Nji=1[(W(j)i-μj)4]σ4j,W(j)i為第j層子帶信號的第i個小波系數,μj和σj分別為第j層子帶信號的均值和方差。

PEK的值越小,時序信號的沖擊特性越顯著,據此建立的適應度函數f(x)為

f(x)=minJ+1j=1(PEK(x)j)(15)

其中:x為(Q,r,J)定義的粒子種群;PEK(x)j表示在參數x作用下第j層子帶信號的排列熵和峭度之比。適應度函數f(x)以多尺度子帶信號的最小PEK值來評估x的性能。

2.3? IDPC算法

針對DPC算法的不足,本文提出一種改進的密度峰值聚類(improved density peaks clustering,IDPC)算法,該算法引入權重系數和K近鄰重新定義樣本局部密度,并結合共享最近鄰構造了考慮周圍環境的相似度,具體如下。

2.3.1? 基于加權K近鄰的樣本局部密度

共享最近鄰(shared nearest neighbors,SNN)表示樣本點i的K個最近鄰樣本和樣本點j的K個最近鄰樣本的交集,公式為

SNN(i,j)=KNN(i)∩KNN(j)(16)

假設樣本點j為樣本點i的K近鄰點,規定樣本點j的權重系數為ωj,公式為

ωj=|SNN(i,j)||KNN(i)|(17)

則局部密度ρi的定義如下:

ρi=exp(-∑j=KNN(i)ωjdij∑j=KNN(i)? ∑g=KNN(j)ωjdgj)(18)

其中:|KNN(i)|為樣本點i的K個最近鄰集合的元素個數;|SNN(i,j)|為樣本點i和j的共享最近鄰集合的元素個數;∑j=KNN(i)ωjdij表示樣本點i與其K近鄰點j的加權距離之和;∑j=KNN(i)? ∑g=KNN(j)ωjdgj為樣本點i的加權離群程度之和,值越大,說明樣本點i的周圍數據分布越密集,局部密度越大。

IDPC算法的局部密度優勢在于:提升了距離較遠而周圍密集程度較大的K近鄰點對樣本局部密度的貢獻率,且能夠調節不同密集程度類簇間局部密度的大小,更準確地找到密度峰值。

2.3.2? 基于共享最近鄰的分配策略

IDPC算法構造了僅考慮歐氏距離的相似度λ(i,j),并結合共享最近鄰定義考慮樣本周圍環境影響的相似度sim(i,j),公式為

λ(i,j)=11+ed2ijj∈KNN(i)

0others(19)

sim(i,j)=|SNN(i,j)|(∑g∈{KNN(i),i}λgjK1+∑g∈{KNN(j),j}λgiK2)(20)

其中:K1表示{KNN(i),i}集合的元素個數;K2表示{KNN(j),j}集合的元素個數;∑g∈{KNN(i),i}λgj表示樣本點i及其K近鄰樣本與樣本點j的相似度之和;∑g∈{KNN(j),j}λgi表示樣本點j及其K近鄰樣本與樣本點i的相似度之和。

相似度sim(i,j)考慮了樣本間的共享近鄰個數及數據分布特性,樣本間共享樣本越多,相似度越高。與DPC算法相比,IDPC算法更能準確地將剩余樣本歸類,提高聚類的精度。

根據式(16)~(18)計算時序信號特征樣本的密度峰值,確定聚類中心,并依據式(19)和(20)計算相似度sim(i,j),將剩余樣本分配給與其相似度最高的聚類中心所在的簇。

為驗證IDPC算法的優勢,分別在Spiral、Twomoons和ThreeCircles人工數據集上利用DPC、DPC-KWS[9]和IDPC算法進行聚類,結果如圖3所示??梢钥闯?,DPC算法確定的密度峰值在同一類簇內,聚類效果較差;DPC-KWS算法確定的密度峰值雖在不同一類簇,但其分配策略仍導致一些數據點被劃分錯誤;IDPC算法尋找的聚類中心不在同一類簇,且非聚類中心數據點被正確歸類。與DPC和DPC-KWS等其他改進算法相比,IDPC算法通過引入權重系數ωj提高了距離較遠而周圍密集程度較大的K近鄰點對樣本局部密度的貢獻率,更能準確地找到密度峰值,將構造的λ(i,j)與共享最近鄰相結合定義相似度sim(i,j),更準確地描述了樣本間的相似性。

2.3.3? 時間復雜度分析

DPC算法的時間復雜度主要由計算樣本間距離矩陣的復雜度、計算每個樣本局部密度的復雜度和計算每個樣本相對距離的復雜度組成。每個部分的時間復雜度均為O(n2),所以總的時間復雜度為O(n2)。本文IDPC算法的時間復雜度主要由以下四個部分組成:a)計算每個樣本間距離矩陣的復雜度O(n2);b)計算每個樣本相對局部密度的復雜度O(n2);c)計算每個樣本相對距離的復雜度O(n2);d)計算樣本間相似度的復雜度O(n2)。因此,IDPC算法的時間復雜度為O(n2),與DPC算法的時間復雜度相同。

2.4? OTQWT-IDPC算法流程

根據2.1~2.3節的描述,本文提出的OTQWT-IDPC算法流程如下:

算法? OTQWT-IDPC

輸入:原始數據集,最優近鄰數K。

輸出:最優粒子xbest=(Qbest,rbest,Jbest)及聚類結果C。

a)去除數據集中的異常數據,并進行切割處理,獲得實驗樣本Y=(y1,y2,…,yj,…,yn);

b)參數初始化:最大迭代次數λmax,種群規模N,迭代次數λ=1;

c)初始化粒子種群xi=(Qi,ri,Ji),i=1,2,…,10的速度和位置;

d)根據式(14)和(15)計算各粒子的適應度值;

e)根據式(9)~(13)及文獻[22]更新粒子的速度和位置;

f)更新適應度值及最優粒子;

g)判斷是否滿足迭代結束條件,若λ<λmax,則跳轉到d),否則迭代結束,輸出最優粒子xbest=(Qbest,rbest,Jbest);

h)以Qbest、rbest和Jbest對yj進行TQWT分解,獲得Jbest+1層子帶信號;

i)計算最優子帶信號的能量、均值、標準差和模糊熵,構建特征子空間M1=(Mjy1,Mjj2,…,Mjjn),j=1,2,3,4;

j)通過主成分分析對M1進行降維,選擇貢獻率高的兩個主成分構造特征子空間M2=(Mjy1,Mjy2,…,Mjyn),j=1,2;

k)根據式(16)~(18)計算密度峰值;

l)根據式(19)和(20)計算相似度;

m)輸出聚類結果C。

3? 實驗分析

3.1? 實驗數據與評價指標

為驗證OTQWT-IDPC算法的有效性,本節利用BONN癲癇腦電信號和CWRU滾動軸承數據集進行實驗。BONN數據由5個健康人和5個癲癇患者的腦電信號數據組成,包含健康人數據子集Z和O,癲癇患者數據子集N、F和S,每個子集包含100個數據片段,每個數據片段包含4 097個數據點,時長為23.6 s,采樣頻率為173.61 Hz。CWRU數據包含四類故障程度樣本,故障尺寸分別為0.007、0.014、0.021和0.028英寸,所使用的驅動端軸承為SKF6205,風扇端軸承為SKF6203,采樣頻率為12 kHz,電機轉速為1 797 r/min。本文選用BONN中的Z和S子集數據,CWRU中的0.007和0.028英寸故障程度數據,在每類數據中各取50組作為實驗樣本,其中每組樣本包含1 000個數據點。

為說明OTQWT-IDPC算法的有效性,本文采用正確率(accuracy,Acc)、Jacarrd系數(Jc)、FMI指數(Fowlkes Mallows index,FMI)和F1-score值(F1值)評估算法的聚類性能。

假設數據集X的一個聚類結果為M={M1,M2,…,Mm},且X已知地劃分為N={N1,N2,…,Nm},則Acc、Jc、FMI和F1值的公式分別為

Acc=TP+TNTP+FP+FN+TN(21)

Jc=TPTP+FP+FN(22)

FMI=TPTP+FP·TPTP+FN(23)

F1=2×precision×recallprecision+recall(24)

其中:TP代表兩個樣本在M和N中均為同一簇的數量;FP代表兩個樣本在M中屬于同一簇,但在N中不同簇的數量;FN代表兩個樣本在M中不同簇,而在N中屬于同一簇的數量;TN代表兩個樣本在M和N中均為不同簇的數量;precision表示準確率;recall表示召回率,公式分別為presicion=TPTP+FP,recall=TPTP+FN。Acc、Jc、FMI和F1的值均在[0,1],值越大,說明聚類結果與真實的分類越相近,聚類效果越好。

3.2? 實驗過程與結果分析

OTQWT將TQWT參數作為三維目標搜索空間中的N個粒子群落,即x=(Q,r,J),設置目標搜索空間為[1,20]×[1,20]×[1,Jmax],初始粒子種群為:x={x1,x2,…,xN},N=10,初始速度分量為三維空間[-2,2]×[-2,2]×[-2,2]內的隨機向量,最大迭代次數λmax=100。首先依據式(14)和(15)計算每個粒子的適應度值,更新個體最優粒子和全局最優粒子;然后根據式(9)~(13)以及文獻[22]更新粒子的位置和速度;最后,當迭代次數λ>λmax時終止循環,并輸出此時的最優解xbest。TQWT參數優化前后的結果如表1所示。

依據表1中優化后的分解參數構造可調Q因子小波后,可獲得多尺度的子帶信號,為使提取到的特征信息更清晰、質量更好,需選擇最優的子帶信號構造特征。文獻[24]通過峭度和平滑指標系數構造了一種最優特征子帶準則,可用來確定TQWT分解獲得的最優子帶,定義如下:

KSR(j)=Kurt(j)SI(j)(25)

jopt=argmaxjKSR(j)? j=1,2,…,Ja+1(26)

其中:Kurt(j)和SI(j)分別表示第j層子帶信號的峭度和平滑指標系數;jopt為最優特征子帶;SI(j)的公式為SI(j)=exp[1Nj∑Nji=1ln|W(j)i|]/(1Nj∑Nji=1|W(j)i|)。

為進一步提取時序信號的信息,需對原始信號OTQWT分解得到的子帶進行特征提取。本文選擇能量、均值、標準差和熵表示子帶信號特征,從時域和頻域等多個維度挖掘信號的波動信息。熵通過計算時間序列波形的概率度量其復雜程度,本文選取穩定性高、抗噪性能強且靈活性大的模糊熵[25]表示子帶特征。每組樣本分別利用表1中的參數進行分解,最終獲得的最優特征子帶模糊熵結果如圖4所示??梢钥闯?,每類樣本利用OTQWT分解獲得的模糊熵之間差距更顯著,說明OTQWT提取的時序信號局部特征更清晰,且質量更好,有助于提高聚類精度。因此,通過計算最優特征子帶的能量、均值、標準差和模糊熵可構建特征子空間M1=(Mjy1,Mjy2,…,Mjy50),j=1,2,3,4。

在對子帶信號進行特征提取時,特征之間可能會重疊,產生特征冗余。作為一種線性降維方法,主成分分析(principal component analysis,PCA)可以將高維數據映射到低維空間,且信息量不易丟失。因此,為降低特征冗余,本文利用PCA降低特征子空間M1的維度,并選取貢獻率最高的兩個主成分構建特征子空間M2=(Mjy1,Mjy2,…,Mjy50),j=1,2。

最后,利用IDPC算法M2進行聚類。通過十折交叉驗證確定的最優近鄰數K及聚類中心點如表2所示,并利用式(19)(20)計算剩余樣本與c1、c2的相似度。最終得到的聚類結果如圖5所示,OTQWT-IDPC算法各數據集上的聚類精度分別為95%和94%,聚類效果較好,驗證了該算法的有效性。

3.3? TQWT參數優化策略比較分析

為了說明OTQWT-IDPC算法利用LPSPSO優化的TQWT參數具有優勢,分別在BONN和CWRU數據集上進行實驗,將PSO、文獻[21]和LPSPSO優化算法進行比較,分解參數及聚類精度結果如表3所示。從表3可以看出,在BONN上,不同優化算法最終獲得的正確率分別為92%、92%和95%。與對比優化算法相比,本文利用LPSPSO優化的TQWT參數使得算法的精度提高了3%,說明該優化策略提取的特征更清晰,能更準確地識別健康人和癲癇患者的EEG信號。在CWRU上,各優化算法最終獲得的精度分別為90%、93%和94%,與對比優化方法相比,本文利用LPSPSO優化的TQWT參數使得聚類精度提高了1%~4%,說明該優化策略能更精準地檢測不同故障程度的滾動軸承信號。不同TQWT參數優化策略在各數據集上最終得到的Jc、FMI和F1值如圖6所示??梢钥闯?,LPSPSO獲得的Jc、FMI和F1值均優于對比優化算法,說明優化策略能夠更精準地提取時序信號局部特征,特征質量更好,提升了時序信號的聚類精度。

3.4? 聚類性能比較分析

為驗證OTQWT-IDPC算法的可行性及有效性,將該算法中的OTQWT與WT和TQWT比較,IDPC與DPC、WKMM-DPC[26]、DPC-NN[12]和DPC-KWS[9]比較,各算法在不同數據集上的正確率如表4所示。實驗結果分析,可以得到以下結論:

a)與WT和TQWT相比,OTQWT利用LPSPSO優化的TQWT參數構造小波變換,更精準地提取了時序信號局部特征,減少了特征冗余,且特征質量更好,使得OTQWT-IDPC算法的精度至少提高了2%。

b)利用WT和OTQWT提取時序信號特征,使得IDPC算法在BONN和CWRU上的精度均優于DPC、WKMM-DPC、DPC-NN和DPC-KWS算法;利用TQWT提取的特征使得IDPC與DPC-KWS算法在BONN上的精度均為93%,且均優于DPC、WKMM-DPC和DPC-NN算法。

c)與其他對比算法相比,OTQWT-IDPC算法的精度至少提高了1%,聚類性能均優于其他比較算法,能更準確地識別和檢測時序信號,提高了時序信號的聚類精度。

OTQWT-IDPC與對比算法在各數據集上的Jc、FMI和F1值如表5所示,其中,各聚類算法的最優參數由“Arg-”表示??梢钥闯?,OTQWT-IDPC算法在BONN上的指標值分別為0.942 8、0.967 1、0.966 8,在CWRU上的指標值分別為0.937 5、0.958 6、0.958 1。對同一聚類算法來說,利用OTQWT提取時序信號局部特征,最終獲得的Jc、FMI和F1值均優于WT和TQWT。對同一特征提取方法來說,利用IDPC算法對特征樣本進行聚類,最終獲得的指標值均優于DPC、WKMM-DPC、DPC-NN和DPC-KWS算法。OTQWT-IDPC算法得到的Jc、FMI和F1值均優于其他對比算法,說明該算法的聚類性能均優于其他對比算法。OTQWT-IDPC算法不僅更準確地提取了時序信號局部特征,還提升了時序信號的聚類精度,證明了該算法的有效性。

4? 結束語

為提升時間序列的聚類精度,本文提出了一種融合優化可調Q因子小波變換的改進密度峰值聚類算法(OTQWT-IDPC)。算法以TQWT的能量優化策略及改進的粒子群優化算法確定最佳Q因子,不僅較好地提取了時序信號局部特征,還通過引入權重系數和K近鄰重新定義DPC的局部密度,準確地找到密度峰值,解決了DPC的分配連帶錯誤問題,并在BONN和CWRU數據集上實驗,證明了OTQWT-IDPC算法的可行性和有效性。稀疏時序信號的聚類問題一直是難點,由于稀疏信號的自身結構特性和數量關系,利用本文算法獲得的各個特征差距較小,導致聚類效果不佳。針對這個問題,筆者擬引入稀疏信號重構算法進行處理,后續將在這方面進一步展開研究。

參考文獻:

[1]高海燕,劉萬金,黃恒君.魯棒自適應對稱非負矩陣分解聚類算法[J].計算機應用研究,2023,40(4):1024-1029.(Gao Haiyan,Liu Wanjin,Huang Hengjun.Robust self-adaptived symmetric nonnegative matrix factorization clustering algorithm[J].Application Research of Computers,2023,40(4):1024-1029.)

[2]張雄,張逸軒,張明,等.基于小波包散布熵與Mean-Shift概率密度估計的軸承故障識別方法研究[J].湖南大學學報:自然科學版,2021,48(8):133-140.(Zhang Xiong,Zhang Yixuan,Zhang Ming,et al.Research on bearing fault identification method based on wavelet packet dispersion entropy and Mean-Shift probability density estimation[J].Journal of Hunan University:Natural Science,2021,48(8):133-140.)

[3]He Guoliang,Pan Yanzhou,Xia Xuewen,et al.A fast semi-supervised clustering framework for large-scale time series data[J].IEEE Trans on Systems Man Cybernetics-Systems,2021,51(7):4201-4216.

[4]Li Yucheng,Shen Derong,Nie Tiezheng,et al.A new shape-based clustering algorithm for time series[J].Information Sciences,2022,609:411-428.

[5]Gao Tengfei,Chen Dan,Tang Yunbo,et al.Adaptive density peaks clustering:towards exploratory EEG analysis[J].Knowledge-Based Systems,2022,240:108123.

[6]DUrso P,De Giovanni L,Maharaj E A,et al.Wavelet-based fuzzy clustering of interval time series[J].International Journal of Approximate Reasoning,2023,152:136-159.

[7]Bahramlou A,Hashemi M R,Zali Z.Ensemble clustering and feature weighting in time series data[J].Journal of Supercomputing,2023,79(15):16442-16478.

[8]Rodriguez A,Laio A.Clustering by fast search and find of density peaks[J].Science,2014,344(6191):1492-1496.

[9]趙嘉,陳磊,吳潤秀,等.K近鄰和加權相似性的密度峰值聚類算法[J].控制理論與應用,2022,39(12):2349-2357.(Zhao Jia,Chen Lei,Wu Runxiu,et al.Density peaks clustering algorithm with K-nearest neighbors and weighted similarity[J].Control Theory and Applications,2022,39(12):2350-2357.)

[10]Zhang Qinghua,Dai Yongyang,Wang Guoyin.Density peaks clustering based on balance density and connectivity[J].Pattern Recognition,2023,134:109052.

[11]楊震,王紅軍.基于加權K近鄰的改進密度峰值聚類算法[J].計算機應用研究,2020,37(3):667-671.(Yang Zhen,Wang Hongjun.Improved density peak clustering algorithm based on weighted K-nearest neighbor[J].Application Research of Computers,2020,37(3):667-671.

[12]陳蔚昌,趙嘉,肖人彬,等.面向密度分布不均數據的近鄰優化密度峰值聚類算法[J/OL].控制與決策.(2022-12-07).http://doi.org/10.13195/j.kzyjc.2022.1151.(Chen Weichang,Zhao Jia,Xiao Renbin,et al.Density peaks clustering algorithm with nearest neighbor optimization for data with uneven density distribution[J/OL].Control and Decision.(2022-12-07).http://doi.org/10.13195/j.kzyjc.2022.1151.)

[13]Qin Xiaowei,Han Xiaoxia,Chu Junwen,et al.Density peaks clustering based on Jaccard similarity and label propagation[J].Cognitive Computation,2021,13(6):1609-1626.

[14]Sun Lin,Qin Xiaoying,Ding Weiping,et al.Nearest neighbors-based adaptive density peaks clustering with optimized allocation strategy[J].Neurocomputing,2022,473:159-181.

[15]Koc E,Koc A.Fractional Fourier transform in time series prediction[J].IEEE Signal Processing Letters,2023,29:2542-2546.

[16]Chen Zhibo,Xu Yiqun,Wang Hongbin,et al.Deep STFT-CNN for spectrum sensing in cognitive radio[J].IEEE Communications Letters,2021,25(3):864-868.

[17]Gosala B,Kapgate P D,Jain P,et al.Wavelet transforms for feature engineering in EEG data processing:an application on schizophrenia[J].Biomedical Signal Processing and Control,2023,85:104811.

[18]Selesnick I W.Wavelet transform with tunable Q-factor[J].IEEE Trans on Signal Processing,2011,59(8):3560-3575.

[19]Khare S K,Bajaj V.Optimized tunable Q wavelet transform based drowsiness detection from electroencephalogram signals[J].IRBM,2022,43(1):13-21.

[20]Zhang Shuo,Liu Zhiwen,He Sihai,et al.Improved double TQWT sparse representation using the MQGA algorithm and new norm for aviation bearing compound fault detection[J].Engineering Applications of Artificial Intelligence,2022,110:104741.

[21]張樂,彭先龍,朱華雙.貝葉斯優化TQWT參數在軸承故障診斷中的應用[J/OL].機械科學與技術.(2022-10-13).http://doi.org/10.13433/j.cnki.1003-8728.20220270.(Zhang Le,Peng Xianlong,Zhu Huashuang.Bayesian optimization of TQWT parameters with application in bearing fault diagnosis[J/OL].Mechanical Science and Technology for Aerospace Engineering.(2022-10-13).http://doi.org/10.13433/j.cnki.1003-8728.20220270.)

[22]Qu Pengju,Du Feilong.Improved particle swarm optimization for laser cutting path planning[J].IEEE Access,2023,11:4574-4588.

[23]Yan Ruqiang,Liu Yongbin,Gao R X.Permutation entropy:a nonlinear statistical measure for status characterization of rotary machines[J].Mechanical Systems and Signal Processing,2012,29:474-484.

[24]孔運,王天楊,褚福磊.自適應TQWT濾波器算法及其在沖擊特征提取中的應用[J].振動與沖擊,2019,38(11):9-16,23.(Kong Yun,Wang Tianyang,Chu Fulei.Adaptive TQWT filter algorithm and its application in impact feature extraction[J].Journal of Vibration and Shock,2019,38(11):9-16,23.)

[25]Xia Meimei,Xu Zeshui.Entropy/cross entropy-based group decision making under intuitionistic fuzzy environment[J].Information Fusion,2012,13(1):31-47.

[26]陳磊,吳潤秀,李沛武,等.加權K近鄰和多簇合并的密度峰值聚類算法[J].計算機科學與探索,2022,16(9):2163-2176.(Chen Lei,Wu Runxiu,Li Peiwu,et al.Weighted K-nearest neighbors and multi-cluster merge density peaks clustering algorithm[J].Journal of Frontiers of Computer Science and Technology,2022,16(9):2163-2176.)

猜你喜歡
粒子群優化算法主成分分析
基于改進SVM的通信干擾識別
基于自適應線程束的GPU并行粒子群優化算法
基于混合粒子群算法的供熱管網優化設計
基于改進支持向量機的船舶縱搖預報模型
基于NAR模型的上海市房產稅規模預測
主成分分析法在大學英語寫作評價中的應用
江蘇省客源市場影響因素研究
SPSS在環境地球化學中的應用
服務貿易結構優化路徑研究
PMU最優配置及其在艦船電力系統中應用研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合