?

MCI的rs-fMRI功能性連接的特征選擇與壓縮

2024-02-05 05:57吳海鋒
關鍵詞:皮爾遜特征選擇降維

晏 潔,吳海鋒,,保 涵

(1.云南民族大學 電氣信息工程學院,云南 昆明 650500;2.云南民族大學 云南省高校智能傳感網絡及信息系統科技創新團隊,云南 昆明 650500)

近年來,靜息態核磁共振成像(rest-state functional magnetic resonance imaging,rs-fMRI)因其無創性、高分辨率且具有較好的安全性的特點,已普遍應用于腦部疾病的診斷[1-3].已有研究表明,輕度認知障礙(mild cognitive impairment,MCI)一種功能性連接(functional connectivity,FC)喪失癥,表現為患者某些大腦區域的網絡連通性顯著下降.通過rs-fMRI可以很方便地構建腦區網絡,從而評判患者腦區網絡的連通性[4-6].采用rs-fMRI構建腦區網絡的方法主要有相關法[7-9]、圖論[10]以及格蘭杰因果分析(GCA)[11]等,其中皮爾遜相關是一種常用方法.研究大腦的動態變化時[12],可計算其加窗皮爾遜相關[13]建立動態功能網絡連接(dynamic functional connectivity,DFC).然而,無論皮爾遜相關還是加窗皮爾遜相關,若大腦感興趣區(region of interest,ROI)數目較多,計算的相關系數數量將非常龐大,如何從這些龐大的相關系數中提取有效的特征來評判腦區間的連通性是一件較困難的工作.由于個體的差異,每個被試的腦區連通性不盡相同,同時,所計算的相關系數的數量龐大也會產生一些冗余信息,這些因素都增加了評判腦區連通性的難度.

隨著計算機技術的快速發展,機器學習(machine learning,ML)已逐漸地成為了一種輔助的醫學診斷方式[14-15],其本質是利用分類器對兩類或兩類以上的對象進行分類.在ML中,分類器性能依賴于所提取的特征,可表達組間顯著性差異的特征將會得到較高的分類準確率.雖然將腦區連通性作為分類器的特征輸入[16]是近年來常用的一種分類方法,但如前所述,如何從龐大的特征提取有效特征仍是一項挑戰.另外,即使提取出有效特征,特征的數目仍然巨大,如何進行降維,避免維度詛咒[17]也是采用ML實現分類需要解決的一個問題.

針對以上問題,本文做了如下工作:第一,對由rs-fMRI所計算的加窗皮爾遜相關系數進行特征選擇,通過計算最小類內距離,篩選出更有效的特征.第二,對選擇后的特征通過最小二乘(least square,LS)擬合的方式進行數據壓縮,減小了特征維度.實驗采用一組公開的MCI和正常對照(normal control,NC)組來進行分類,將經過特征選擇和特征壓縮的數據作為分類器的輸入.實驗結果表明,經處理后特征的分類準確率比未經處理特征的分類準確率要高8%.

1 相關工作

對于rs-fMRI信號,最常用的分析技術是基于種子的分析 (SBA)[18-19],其定義的種子點可將大腦劃分為116個ROI的自動解刨標記(anatomical automatic labeling,AAL)[20].通過AAL提取的數據維度本身較大,若再計算DFC,產生的數據不僅包含FC信息,還包含時間信息,數據量會更大,這會增加計算復雜度,導致信息冗余,故可采取特征選擇的方法.通常,特征選擇方法可分為3類:過濾法[21]、包裝法[22]和嵌入法[23].過濾法通過統計單變量的特征的基本屬性,設定閾值選擇特征.包裝法直接利用最終分類器的性能來評估特征選擇和分類的總體效果,需要多次交叉驗證來訓練分類器,花費時間較多,但有比過濾法更準確的分類結果[24].然而,由于使用的交叉驗證,包裝法可能在不同的分類數據上選擇不同的特征[25].嵌入法與過濾法類似,但是它的特征選擇過程與分類器訓練有關[26],又因為該方法沒有對特征子集進行迭代評估,所以比包裝法的計算速度更快,但占用的計算資源較大.

較多的特征數不僅包含冗余信息,還易造成維度災難問題[27],因此降維對分類具有重要意義.主成分分析(principal component analysis,PCA)是一種用于降低特征維數的技術,其不僅被成功地用于描述疾病相關空間模式的生物學過程[28-29],還可提取神經影像分類中的有效特征[30-31].然而,使用PCA降維的特征與原始特征的物理性質沒有直接聯系,這使得分類的可解釋性變得復雜.線性判別分析(LDA)[32]試圖通過尋找在高斯分布假設下最大化類可分性的線性投影來消除PCA的這一缺點.然而,無論是PCA還是LDA都不可避免的丟失了數據信息,是一種有損的數據降維方式.多元分類和回歸分析也可實現降維,在多元分類和回歸分析中,最常使用線性模型分析特定區域與認知功能之間的相關性[33-35],其新特征集是原始特征的線性組合,因此降維后的數據可無損地恢復成原始數據.遺憾的是,這方面研究分析通常依靠先驗選,或者需要分析MCI和NC受試者的結構連接模式差異,這給實際應用帶來了一定困難.

2 方法

2.1 總體框架

首先對符合標準的rs-fMRI數據進行預處理,再通過AAL模板提取ROI的血氧水平依賴(blood oxygen level dependent,BOLD)信號,計算BOLD信號間的加窗皮爾遜相關系數得到DFC(由于DFC相關矩陣為對稱陣,故只需取其上三角部分即可),其次利用訓練樣本中的最小類內距離準則選取合適的特征數目,然后對篩選后的數據進行LS線性擬合,最后將得到的擬合系數作為支持向量機(support vector machine,SVM)分類器的特征輸入,其總體框架如圖1所示.下面,將對上述步驟做更詳細介紹.

圖1 系統框圖

2.2 加窗皮爾遜相關

根據k折交叉驗證,將所有被試者組成的集合N劃分為兩個子集XS和XT,使其滿足

XS∪XT=N&XS∩XT=0&XS/XT=1-1/k.

(1)

若將xnj∈RT×K表示為將第j類的第n個被試的ROI時間序列矩陣,其中T表示時間點數,K表示ROI數目,則對該矩陣計算第w個時間窗口的皮爾遜相關系數后將得到矩陣

(2)

其中w=1,2…W,j=1,2,…,J.

2.3 特征選擇

(a) 最小類內距離

最小類內距離指兩個類中距離最小的作為兩類距離,反之,最大類間表示兩個類中距離最大的作為兩類距離.先計算訓練集的總體類內距離,得到

(3)

(4)

(5)

Y=[r(p1),r(p2),...r(pM)].

(6)

(7)

J類訓練集的組平均特征所構成的矩陣就為

Δ=[A1,A2,…AJ].

(8)

(b)最大類間距離

計算類間距離,得到

(9)

(10)

與(5)同理,在組平均上也可得I個δ′,令其為δ′(i),由最大類間距離準則所選擇的M個特征的位置可計算為

(11)

剩余步驟與最小類內距離準則一樣.

2.4 特征壓縮

即使經過特征選擇后,特征數目依舊龐大,為了避免維度詛咒問題,我們采用LS特征壓縮,即將每一被試經特征選擇后的DFC矢量表達為聚類中心的線性組合(聚類中心由J類訓練集的組平均特征所構成),通過LS擬合求解該線性組合.將一被試者的特征選擇矢量表達為

Y=Δθ+ε.

(12)

其中,ε表示誤差矢量.根據LS估計求解,可得最后的壓縮系數

(13)

最后,將θn表示為第n個被試的特征壓縮矢量,將其與標簽ln構成一個元胞

Zn=<θn,ln>.

(14)

根據n所屬的集合,組成最終的訓練集S和測試集T.上述計算步驟如下所示.

step 2:劃分集合,對DPABI預處理后的圖像劃分為訓練集XS和測試集XT;

step 3:在集合XS中,根據(3)(9)分別獲得最小類內距離和最大類間距離δ;

step 4:通過(5-11)篩選M個最小類內距離和最大類間對應的位置,并分別將其位置帶入(7)得到Aj;

step 5:將J類訓練集的組平均特征作為聚類中心,得到Δ;

3 實驗

3.1 實驗設置

本實驗所用rs-fMRI數據采用自阿爾茨海默病神經影像學數據庫(alzheimer’s disease neuroimaging initiative,ADNI),參數設置如表1.

表1 rs-fMRI數據參數設置

該實驗使用數據處理和腦成像分析(data processing &analysis of brain imaging,DPABI)工具箱[36]進行數據預處理,下載地址為:http://rfmri.org/dpabi,處理步驟如下:

● 默認去除原始數據前10幀圖像,以使圖像穩定;

● 時間層矯正,以第48個切片為基準使每個切片上的數據具有相同時間點;

● 手動調整被試圖像,使其與標準圖像位置保持一致,再將結構像配到功能像,然后把結構像分割成灰質、白質和腦脊液;

● 控制生理噪聲(包括全局信號、灰質白質中的噪聲等)和去除線性漂移;

● 校正所有被試者的頭部運動,采用Friston 24頭動參數模型(包括3個轉動參數和3個平動參數);

● 進行歸一化和平滑,并過濾數據的頻率范圍為

● 0.01~0.08 Hz,以此濾除低頻偏移和高頻噪聲;

● 使用AAL地圖集識別ROI;

● 再次調整頭動,設置頭動排除標準:大于 2 mm 位移和2°旋轉角度;

● 篩選配準質量好的結構像與功能像,最后獲得32個MCI和32個NC圖像.

本文采用SVM來評估我們方法的分類性能.由于樣本數量有限,采用五折交叉驗證,同時,為避免交叉驗證結果的偶然性,重復上述步驟十次,最后結果取平均.為了評估特征選擇和特征壓縮結合方法的有效性,本文還做了以下對比試驗,具體參數由表2列出,步驟簡述如下:

● Pearson:計算兩兩ROI間BOLD信號的皮爾遜相關系數;

● WP:將時間分割成若干份(即窗口),在每個窗口獨立地計算皮爾遜相關系數;

● WP-FS:對加窗皮爾遜后的數據只進行特征選擇,即通過最小類內距離準則或者最大類間距離準則進行特征篩選,以此減少特征數目;

● WP-FDM:對加窗皮爾遜后的數據進行特征壓縮,即通過LS對聚類中心進行線性擬合,以此降低特征維度.其中聚類中心采用有監督方式獲得,即將MCI與NC的相關系數組平均分別作為聚類中心;

● P-FS-FDM:對傳統皮爾遜先進行特征選擇,再進行特征壓縮,其中聚類中心分別為MCI與NC經特征選擇后的相關系數的組平均;

● WP-FS-FDM:對加窗皮爾遜先進行特征選擇,再進行特征壓縮,其中其中聚類中心分別為MCI與NC經特征選擇后的相關系數的組平均;

● WP-FS-FDN:對加窗皮爾遜先特征選擇,后特征壓縮,其中聚類中心采用無監督方式(K均值聚類)獲得;

表2 各算法參數設置

3.2 實驗結果

3.2.1 比較不同特征選擇方法的分類性能

首先,我們比較了兩種特征選擇的方法(包括最小類內、最大類間)的平均分類準確度.由圖2可知,兩種方法分別在不同的最優值有最大的分類準確率.當特征數小于最優值時,分類準確率都隨著特征數的增加而增加.當特征數大于最優值時,準確率沒有進一步提高.其中,最小類內的方法在特征數目為 2 000 左右時,分類準確率最高,達到73.25%.

圖2 不同特征選擇算法分類結果

3.2.2 LS特征壓縮

將被試用不同狀態的線性組合來表達動態功能連接,分別得到MCI和NC兩組擬合系數.如圖3所示,MCI和NC的數據由于類間距離較大以及類內距離較小,故分別聚成兩簇.

圖3 擬合系數連接動態模式差異

本文將MCI和NC的DFC組平均作為聚類中心,實質是一種有監督聚類方式,為驗證本文提出的算法性能,我們比較了有監督和無監督聚類的LS特征分類準確率,圖4(a)為十次五折交叉驗證實驗的均值,圖4(b)為每一次實驗的結果.觀察可知,采用有監督聚類的方法獲得的分類性能最好,無監督聚類即便是聚5類獲得了最好的分類準確率,還是遠遠低于有監督聚類的LS特征分類結果.

圖5顯示了不同算法的分類性能,圖5(a)為十次五折交叉驗證實驗的均值,圖5(b)為每一次實驗的結果.從圖5(a)中可以看出,本文提出的方法分類精度最高,相比傳統的Pearson方法提高了大約8%,WP、WP-FS、WP-FDM以及P-FS-FDM的分類準確率分別為62%、69%、62%、72%.

為了觀察特征壓縮前后的數據特征,使用PCA技術將MCI和NC的樣本數據投影到二維空間中便于可視化,如圖6所示.一般同一類數據的特征之間具有高度相似性,易聚在一起.觀察可知,在使用本文算法前,兩類數據交錯一體,難以分辨.算法后,兩類數據分別排布在分類線兩邊,易于區分.

圖4 有監督和無監督分類結果

圖5 組合算法分類結果

圖6 二維空間中樣本的分布情況

4 結語

在使用rs-fMRI數據對MCI和NC分類的研究中,用特征選擇或降維來提升分類準確度是可行的,但二者的結合會得到何種結果并未得到充分的討論.本文試圖結合最小類內特征選擇和LS特征降維兩種方式來提高分類性能.特別地,LS降維可稱之為一種特征壓縮方法,因為經壓縮的特征的信息損失較少,可經聚類中心重建.

本文的LS特征壓縮中,一個重要步驟是聚類,而聚類又可劃分為有監督聚類和無監督聚類.在傳統的DFC研究中,大多采用無監督聚類,而本文采用有監督的LS特征壓縮,其分類準確率比無監督聚類的分類結果上升了13%,一種可能的解釋是有監督聚類的聚類簇明確.在有監督方法中,若聚2類,則一類是MCI組平均,一類是NC組平均,用該簇中心點所表達的特征就具有明確結果.例如,一個MCI被試者的特征用該簇中心來線性表達時,表達MCI簇的權重就較大,而NC的權重就較小,因為該被試的特征與MCI簇更為接近.相反,無監督聚類所獲得的聚類簇并不明確,可能同時存在MCI和NC被試者的特征,用此聚類中心表達的權重的指向性就不太明確.

特征選擇是篩選具有顯著組間差異性的特征,而降維是減少特征維數的過程.特征降維通常會帶來信息丟失,畢竟數據量經降維后會相應減少.PCA是典型的有損降維,而本文提出的LS壓縮可減少信息的丟失.為了觀察特征降維后的數據形態,我們分別對比了這兩種算法降到二維的結果,發現經PCA降維的特征矢量在二維空間中分布較為散亂,兩類數據互相交錯,難以區分.另一方面,經LS壓縮的特征投射至二維空間后,兩類特征間的分類線可輕易找到.該結果說明,MCI和NC兩類樣本經LS特征壓縮后比經PCA降維后更易區分,這也印證了無損的壓縮可能比有損的壓縮具有更好的分類性能.

在實驗中,還在算法中加入加窗皮爾遜的方法,目的在于測試該方法與特征選擇和壓縮間可能存在的關聯.首先,總體看,加窗皮爾遜經特征選擇后比無窗皮爾遜的分類準確率高,這也在情理之中,畢竟加窗的方法增加了特征的動態信息.其次,加窗皮爾遜只運用特征選擇或者只采用特征壓縮時,分類準確率并不能達到最高,而同時選用兩種方法時,分類準確率將達到最高的76%.一個合理的解釋是,特征選擇可能去除了冗余信息,而特征壓縮消除了維度詛咒,兩種方法在提高分類準確率上應該都是必須的.這也證實了本文的一種重要結論:特征選擇和特征降維的結合可有效提升分類準確率.

此外,本文本應關注另一重要問題,FC的動態特性.皮爾遜相關加窗后其實已具有了動態性,但本文的重心還是在于加窗的特征維度變大后分類性能如何提高,并未對其動態性做深入研究.本文的實驗結果表明,FC的特征經LS壓縮后投射到低維空間呈現了運動的形態,且現有的研究已證實,MCI的FC動態性能與NC有所區別,因此,研究MCI和NC間LS壓縮特征的運動特性差異也將具有積極意義.在未來的工作中,我們可嘗試采用圖論的方法分析LS特征壓縮的時變規律,利用圖密度、平均路徑長度和小世界性等指標分析相關性能.

猜你喜歡
皮爾遜特征選擇降維
混動成為降維打擊的實力 東風風神皓極
現代統計學之父:卡爾·皮爾遜
現代統計學之父:卡爾·皮爾遜
降維打擊
Excel在水文學教學中的應用
卡方分布的探源
Kmeans 應用與特征選擇
聯合互信息水下目標特征選擇算法
拋物化Navier-Stokes方程的降維仿真模型
基于特征聯合和偏最小二乘降維的手勢識別
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合