?

局部線性下的函數型主成分聚類算法

2024-03-26 03:13陳海龍胡曉雪
統計與決策 2024年5期
關鍵詞:降維聚類矩陣

陳海龍,胡曉雪

(新疆財經大學統計與數據科學學院,烏魯木齊 830012)

0 引言

聚類研究既是數據劃分的一個有效方法,也是數據挖掘的一項主要技術,它能通過數據中相似的信息將數據劃分為不同的簇來探究其內在關聯及重點信息。但隨著科技的發展,數據的密集性逐漸加強,出現了一種具有連續特征的數據,統計學上稱之為函數型數據[1]。函數型數據可看作隨時間變化的數據,如智能手環檢測心率的變化情況、股票市場的波動情況、氣象數據的變化情況等。目前函數型數據聚類分析是被廣泛關注的研究分支,其主要有四種方法[2]:一是依據原始函數值直接進行聚類,二是兩步串聯法聚類,三是利用函數間的歐氏距離來實現系統聚類,四是函數主成分聚類。本文將以第四類方法為基礎進行改進與討論。函數型數據本質上具有無限維特征,不能直接運用于聚類研究中,在一般情況下,函數型主成分分析法(Functional Principle Component Analysis,FPCA)可通過尋找恰當類別信息子空間進行聚類分析。

在多元函數型聚類分析中,常通過多元函數型主成分分析方法對多元函數型數據進行投影,以達到降維的目的,從而提高聚類效果。例如,Jacques 和Preda(2014)[3]通過主成分得分構建高斯混合模型,提出了首個基于主成分分析的多元函數型聚類算法;Schmutz 等(2020)[4]通過多元函數型主成分分析將數據擬合到特定群體的函數子空間中,提出了一種新的多元函數型數據聚類技術;Leva 等(2013)[5]通過研究心電圖形態曲線,提出了一種多元函數型K-均值的聚類方法。也有學者以函數型主成分分析為主要研究方法,如孟銀鳳等(2022)[6]通過選擇適當的函數主成分個數,對重構樣本進行分裂式層次聚類,增強了結果的可解釋性;武祺然(2022)[7]基于二維主成分分析提出一種新的多元函數型數據聚類算法。還有學者以多元函數型主成分的聚類方法來探究實際問題,如翟宇申(2018)[8]基于邊際函數主成分分析,將提出的多元函數型聚類方法運用于空氣污染數據;劉史詩等(2021)[9]通過函數型主成分分析法進行層次聚類,以探究新型冠狀病毒的演變特征。以上的函數型主成分分析方法是基于高維線性平面空間對高維數據進行分析建模而提出的方法模型,其有利于解決線性平面空間中的函數型聚類問題。

統計研究中的數據變量已不只是局限于線性空間,其在線性空間中信息的利用性往往也受到限制。為突破這一限制,考慮將LLE 算法運用其中。在現有的聚類分析方法中,LLE 算法是一種有效處理流形降維的方法,本質上是非線性降維技術,也稱作局部線性降維技術(Locally Linear Embedding,LLE)。目前對于LLE 算法的研究主要有兩類:一是通過降維算法來提高數據集的識別及預測功能,如Yao等(2017)[10]提出了一種基于LLE的濾波器的特征選擇方法,可在圖像識別中得到應用;Shan 等(2015)[11]提出了基于改進的局部線性嵌入和支持向量機(ILLE-SVM)的軟件缺陷預測模型。二是通過LLE算法提高解決實際問題的能力,如Xue和Qian(2010)[12]提出了基于局部線性嵌入(LLE)的語音分析;Singh等(2017)[13]提出了基于LLE-ISOMAP 算法的無線傳感器網絡定位等。該算法的優勢主要有兩點:一是其符合流形的算法結構能很好地保證數據集在空間中不受限制,在保留了原有數據特征的情況下又達到了降維的目的;二是LLE算法能通過求解權重矩陣進而約束函數型主成分定義下的求解模型及其數據的拓撲結構。本文以此為突破點,將LLE算法和PCA算法結合,并將LLE 算法的核心要點推廣至FPCA 算法中,提出局部線性下的函數型主成分分析模型(LLE Function Principle Component Analysis,LFPCA)。LLE 模型和PCA 模型的結合可以在非線性空間中達到降維目的,進一步提高空間利用率,增強模型的解釋力,提升聚類效果。鑒于此,本文先建立新算法下的模型,再結合函數型數據的特點從多個視角進行聚類分析,以展現模型的優勢。

1 基于LLE算法的新模型構建

在構建函數型主成分分析的聚類模型時,需要考慮兩個部分:一是曲線擬合和函數型主成分分析;二是融入LLE算法并改進函數型主成分定義,構建一個非線性空間上的函數型聚類新模型。

1.1 多元函數型數據的主成分分析

假設多元函數型數據集[x1(t),x2(t),…,xn(t)]是在連續集T上獨立同分布的,t=[0,T],其中,樣本是定義在L2(T) 上的實值曲線,i=1,2,…,n。由于在實際中,觀測曲線的函數表達式是不能被直接觀測到的,只能在有限的時間集中獲得離散的觀測結果,因此,在處理函數型數據時,第一個任務就是將這些離散觀測值轉換為函數,則可計算任何所需的參數值。若假設觀測值是無誤的,則可使用插值方法。然而,若有一些噪聲需要去除,則需要重構函數形式并假設函數曲線,可以將其分解為有限維空間。假設曲線xi(t)可由既定空間下的一組基函數表示,有如下形式:

其中,φi(t)=(φi1(t),φi2(t),…,φip(t))′為一組基函數,ci=(ci1,ci2,…,cip)′為基函數系數向量。

傳統的多元統計分析方法(如主成分分析)可以有效地將高維空間轉換為低維空間,這種方法利用樣本方差-協方差矩陣的特征值進行分解,并以系數向量的形式表示,從而實現降維的目的。在函數型主成分分析中,其特征向量所對應的特征函數記為β(s),s∈(t1,tT),且β(s)平方可積。

將樣本函數xi(t)做歸一化處理,其函數型主成分得分可定義為:

特征函數需符合單位正則化并與其他函數型主成分相互正交,記xi(s)與xi(t)的協方差函數為:

求解函數型主成分特征函數β(s)可等價于求解式(4)的特征方程:

其中,λ為特征函數的特征值。接下來可得特征函數β(t)的一個積分為:

在式(5)中,Vβ(t)表示通過對β(t)進行積分變換,并使用協方差函數covx(s,t)作為內核來計算得到的結果;V表示協方差算子。因此,可將式(5)表示為:

在多元函數型數據中,基函數展開的矩陣形式可表示為X=CΦ,則方差-協方差函數展開的矩陣形式為:

將特征基函數展開為:

式(7)中,b∈(b1,b2,…,bk)′。定義K階對稱矩陣H=,其中,H為R×R的矩陣,,將式(4)代入式(6)可得:

可將式(8)等式兩邊的Φ′(s)消去,通過矩陣的特征分解求得投影函數系數b,最終求得特征函數。將多元曲線xi的得分定義為lik,轉化為多元函數(fk)的第k個投影特征。受文獻[4]的啟發,定義多元函數型主成分為:Li=Ci Hb。

1.2 局部線性下的函數型主成分分析模型

LLE算法的目的與主成分分析一致,都是將高維數據轉化為低維數據。在主成分分析中,降維的本質是特征分解;而LLE 模型是在流形領域進行研究的,其本質是先通過最近鄰搜索構造權重矩陣,再進行部分特征值分解。流形學習本質上是將高維采樣統計結果還原為低維流形結構,亦即先找到多維空間上的低維流形,再求出對應的嵌入映射形式,從而達到維數約簡或數據可視化的效果[14]。LLE非線性降維技術(局部線性嵌入)的核心思想在于,在整個數據集的某個小范圍內,數據是線性的,其中每個數據點xi都可以用其K-近鄰數據點的線性組合來表示:

式(9)中,X=(x1,x2,…,xn)∈?k×n表示n維列向量的數據矩陣,xi為數據點,ωij為權重系數,ωi是n×n的權重系數矩陣,其中ωij是ωi的第j列。在函數型數據分析中,函數曲線之間的變化差異信息可由基函數系數矩陣C來表達,因此,基函數系數矩陣可分解為如下形式:

在LLE 算法中,先運用KNN 算法得到每個數據xi的k個近鄰點。由于每條曲線有不同的觀測值,因此為找到同一時間相似的觀測值,可用KNN 算法形成多個不同種類的數據集以進行分類,其中Xi表示數據點xi形成的數據集。有如下形式:

此時,數據集還屬于高維(無限維)數據集。設置距離參數i,正則化表達空間向量矩陣。由于權重系數矩陣可以反映數據集中的差異化信息,因此,求解權重系數,并提出約束條件來優化問題:

綜上,結合式(9)和式(10),函數型主成分得分可表示為:Li=ωix′Hb。

2 多元函數型聚類算法

本文主要通過新定義的函數型主成分得分來建立高斯混合模型(GMM),以近似多元函數型數據的概率密度函數[15],并運用EM算法求解GMM模型的待估參數。

在多元函數型聚類算法中,多元函數型數據X的概率密度函數可通過前p個函數型主成分得分的概率密度函數近似表示:

其中,fUj為Uj~N(0,ρj)的概率密度函數,ρj為第j個特征值,N(·)為正態分布,Lj(x)為多元函數型數據第j主成分得分。假設待估樣本有q個類別,則該聚類算法的高斯混合模型可表示為:

其中,ak屬于第k類概率(系數),pk為第l類保留的主成分個數;ρj,k為第k類對應的第j個特征值;Lj,k(x)為第k類第j主成分得分;θ為高斯混合模型的待估參數,θ={(ak,ρ1,k,…,ρPk,k),1 ≤k≤K};P=(P1,P2,…,PK)′。

通過EM 算法求解高斯混合模型的待估參數,其中,完全數據似然函數為:

通過EM 算法,可以用對數形式來估計參數θ,這可以通過式(13)實現:

接下來,在E步獲得Q函數:

3 仿真實驗及應用

為驗證實驗算法的聚類性能,本文進行模擬實證檢驗,設置參數后,將本文的LFPCA模型聚類算法與B樣條基函數的函數型K-均值聚類方法(Skmeans)[16]、基于特定組函數子空間的多元函數型聚類算法的FunHDDC方法[4]、多元函數主成分分析下的多元聚類算法Funclust方法[3]進行比較。聚類效果采用聚類純度(Purity)、蘭德指數(Rand Index,RI)和聚類精確度(Accuracy)三個指標進行評價。

3.1 隨機模擬實驗

參照文獻[3]的隨機模擬實驗,模擬生成2種變量、3種類別的函數型數據,該模型使用三角函數和多項式函數構建,公式如下:

其中,Ui是服從N(1,1)的隨機變量矩陣,i=1,2,3;ε(t)是服從N(0,1)分布的高斯白噪聲;k代表類別數,且1 ≤k≤K,本實驗中k分別取1、3、5,表示每個變量生成3類數據;t∈[0,21],每條曲線等距生成1001 個觀測點,每類隨機生成50條曲線。圖1中,左邊表示變量X1(t)生成的3類數據,右邊表示變量X2(t)生成的3類數據。

圖1 隨機模擬曲線

3.2 實例驗證數據集來源

實證檢驗采用3 個數據集,分別是Growth 數據集、Tecator 數據集和加拿大氣象(Tem)數據集(見下頁圖2 和圖3)。本文對選取的數據都進行了異常值處理,將數據集應用于算法中以進一步說明算法的可行性及有效性。

圖2 Growth和Tecator數據集

圖3 加拿大氣象日平均溫度聚類結果

Growth數據集來源于Berkeley Growth Study[17],其數據是R軟件fda包中的一部分數據對象。數據集中共有93個樣本,包含39名男孩和54名女孩在1~18歲不同年齡段的身高。不同的個體在不同的年齡段會經歷不同的生長階段,目標是通過聚類的方式體現身高增長曲線是否與性別相關。圖2(a)中,橫坐標表示年齡,縱坐標表示身高。Tecator 數據集是由UCI 數據庫提供的標準數據集,Tecator 數據集旨在研究碎肉樣品中的脂肪、水和蛋白質含量。該數據集共有215 個吸光度數據,每個樣本包括100 個不同波長的吸光度數值,其中吸光率的波長介于850~1050mm。100 個肉類樣品的吸光度曲線如圖2(b)所示,圖像通過3次B 樣條對100 個樣本數據進行擬合,其中,橫坐標表示波長,縱坐標表示含量。加拿大氣象數據是R軟件fda包中的“canadian wheather”。數據主要記錄加拿大1960—1994年的35 個氣象站不同地點的日平均溫度和日平均降水量。

3.3 聚類結果及分析

在Growth數據集中,通過圖像可以清晰地反映性別差異。聚類結果顯示,男孩和女孩在不同年齡段的生長速度和生長巔峰時期存在差異。此外,還可以觀察到男孩在后期的生長趨勢明顯優于女孩。

在Tecator 數據集中,標簽占比少的類代表了脂肪含量低于20%的肉類樣品曲線,占比多的類代表了脂肪含量高于20%的肉類樣品曲線。在一般情況下,脂肪含量低于20%的肉類被認為是優質肉類。因此,215個產品中優質的肉類產品占據了大多數。

在Tem數據集中,根據圖3(b)的聚類中心結果,可以將加拿大的35 個氣象站點分為5 個不同的類別。從中可知,所有地區的年度溫度都呈現明顯的季節性變化,并且存在一定的趨勢。由于地理位置不同,因此不同站點的平均氣溫數據會呈現不同的結果。

3.4 聚類評價準則

本文評價聚類方法的效果主要是基于聚類純度(Purity)、蘭德指數(Rand Index,RI)和聚類精確度(Accuracy)3個指標。定義如下:

在聚類純度Purity 的表達式中,N表示樣本數量,Ω={w1,w2,…,wk}表示聚類后實際的簇,C={c1,c2,…,cj,}表示真實類別,wk表示聚類后第k個簇中的所有樣本,cj表示第j個類別中的真實類別。在蘭德指數RI的表達式中,TP表示同類樣本點在同一個簇中是同一類別的情況,FP表示兩個非同類樣本點在同一個簇中的類別關系,TN表示兩個非同類樣本點在不同簇中的類別關系,FN表示兩個同類樣本點在兩個不同簇中的類別關系。在聚類精確度Accuracy的表達式中,Ncor表示聚類正確的樣本個數,N表示總樣本個數。3 個聚類指標的取值范圍均為(0,1),其值越大表示效果越好。

3.5 參數設置

針對圖1 的隨機模擬數據,在參數設置一致的基礎上,將聚類算法與SKmeans、FunHDDC 和Funclust 進行比較。本文LFPCA 算法的參數設定如下:(1)利用兩組隨機模擬聚類數據集計算其聚類指標,選取類別數k=3;(2)聚類擬合過程使用3 次等距節點的B 樣條基底擬合曲線來調節曲線的平滑程度,同時設置為20 個基底矩陣;(3)權重系數依LLE 降維算法的效果而設定。對于每個數據集,觀測值之間的數據關系是直接可用的。針對圖2,在進行聚類分析時,算法參數設定如下:(1)通過3次B樣條基底擬合曲線,其中,需要控制基底數量來保證曲線的平滑程度,將Growth 數據集、Tecator 數據集、加拿大氣象數據集的基底數量分別設置為20、25、20。(2)Growth 數據集中共有兩種類別(男、女),取映射矩陣列數k=2;在Tecator數據集中,對于每個肉類樣品,數據包括吸光度和水分(水)、脂肪和蛋白質的含量,取映射矩陣列數k=3;在加拿大氣象數據集中,加拿大35個氣象站分布于北極、大西洋、東部內陸、西部內陸和太平洋,因此,Tem 指標將站點分為5類,取映射矩陣列數k=5。(3)權重系數依據類別數k而確定。聚類評價指標值越大,代表聚類效果越好。

3.6 實驗結果

按照聚類方法的模型,結合模擬實驗及實例數據得到如表1和表2所示的聚類評價結果。

表1 模擬實驗的聚類評價結果

表2 FLPCA模型的聚類評價指標結果

從結果來看,隨機模擬實驗和3類數據集都表現出良好的聚類效果,但在實際中,聚類效果與k值的選取和數據的變化特征有關。其中,Tecator 數據集函數的連續特征最為明顯,展現出了最佳的聚類效果;Growth 數據集從圖像上看有一定的增長趨勢,在實際的聚類效果上也較為優異;在Tem數據集中,由于地域差異,不同地區的日平均溫度會存在差異,但經過算法的驗證,其聚類指標展現了不錯的聚類效果。

因此,在本文的算法應用中,無論是從聚類純度(Purity)、蘭德指數(RI)還是聚類精確度(Accuracy)的角度來分析,本文所提出的模型都能很好地展現出其聚類效果。綜上,LFPCA模型的聚類性能得到了驗證。

4 結束語

本文在函數型主成分分析的視角下討論了函數型聚類問題。首先,在FPCA模型的基礎上,運用LLE算法的核心要義對其主成分定義進行改進,提出一種LFPCA 的改進算法;其次,在求解算法的過程中,通過提出函數型主成分得分并結合EM 算法構造出高斯混合模型來近似函數型算法的概率密度函數,并求出待估參數直至收斂;最后,通過隨機模擬實驗和應用分析表明,相比于傳統的PCA算法,新模型的算法適用性更強且應用更廣泛,能更直接地表現聚類結果。算法模型的主要優勢在于:(1)該算法模型突破了線性空間的限制,提高了數據結構的包容性;(2)構建了非線性空間上的聚類算法模型,實現了對函數型主成分分析中聚類問題的解決。隨機模擬實驗及應用分析的結果也驗證了該算法聚類效果的優越性。

需要說明的是,本文僅討論了LLE模型下的函數型主成分聚類問題,聚類方法也使用較常規的K-均值聚類方法。在后續的工作中,還有很多值得探討的問題,例如,通過新算法的改進可以進一步考慮對函數型主成分變量個數的選擇;再如,對于無監督學習下的聚類問題,給信息加少量標簽,討論半監督框架下的函數型主成分聚類問題。

猜你喜歡
降維聚類矩陣
混動成為降維打擊的實力 東風風神皓極
降維打擊
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
初等行變換與初等列變換并用求逆矩陣
矩陣
矩陣
矩陣
一種層次初始的聚類個數自適應的聚類方法研究
拋物化Navier-Stokes方程的降維仿真模型
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合