?

基于深度學習的t-fMRI腦狀態解碼

2023-01-13 13:33付佳俊盧梅麗曹一凡郭兆樺高資成
天津職業技術師范大學學報 2022年4期
關鍵詞:磁共振可視化卷積

付佳俊,盧梅麗,曹一凡,郭兆樺,高資成

(天津職業技術師范大學信息技術工程學院,天津 300222)

大腦是人類最復雜的器官之一,控制著人類的高級情感和復雜行為。如今人們對大腦的認知仍十分有限,相關學者一直試圖解開大腦工作原理之謎。大腦會根據人執行任務的差異而產生不同的反應,任務態功能磁共振成像(task functional magnetic resonance imaging,t-fMRI)是一種通過測量血液動力學間接刻畫大腦神經活動的影像數據,現已成為使用最廣泛的腦功能研究手段之一。其獲取方式為先對信號去噪[1],再使用多層同時掃描技術[2]快速采集功能磁共振全腦影像。功能磁共振成像能對特定的大腦活動皮層區域進行精準定位,且能實時跟蹤信號的改變,其空間分辨率和時間分辨率分別可以達到2 mm和1 s。多年來,研究人員一直試圖通過功能磁共振成像解碼識別人腦功能。其中,多體素模式分析(multi-voxel pattern analysis,MVPA)[3]是最常用的方法之一。MVPA的核心原理是在不同認知狀態下,利用獨立的實驗數據測試由多個體素信號形成的空間模式訓練分類器的性能。盡管MVPA很受歡迎,但需要人為選取特征,可重復性差且耗時。

隨著深度學習的發展,越來越多基于深度學習的方法被運用于影像數據分析。Dvornek等[4]使用基于Long Short-Term Memory的遞歸神經網絡,通過靜態fMRI對ASD患者對照和進行分類。Eickenberg等[5]利用基于卷積神經網絡(convolutional neural network,CNN)的模型,通過fMRI信號對觀看自然風景的大腦進行預測。Seeliger等[6]根據生成對抗網絡,借助fMRI信號來重構視覺圖像。Wen等[7]使用深度殘差神經網絡模擬視覺皮層處理,提供了一種高效策略,以建立高維和分層視覺特征的皮質表征預測模型。Zhao等[8]基于三維卷積,開發了一種用以識別和分類不同類型的功能性腦網絡。Khosla等[9]使用一種三維卷積神經網絡方法實現集成學習策略,該方法利用了rs-fMRI數據的全分辨率三維空間結構,并適合非線性預測模型。與傳統機器學習方法不同,深度學習可以自動提取數據的特征,以達到自動分類的目的。卷積神經網絡作為當下使用最多的方法之一,越來越多的人將其運用于fMRI分類中。深度學習通過多層網絡的非線性變換自動提取數據中的隱含特征,但是由于缺乏對其內部工作機理的理解與分析,通常被看作“黑盒”模型,導致用戶只能觀察模型的預測或分類結果,而不能了解模型產生決策的依據。尤其在醫療數據的應用場景中,僅向用戶提供最終的預測結果而不解釋其原因,很難讓用戶信任和理解該模型。因此,對模型分類結果進行可解釋性分析至關重要[10-13]。

鑒于fMRI數據的高維特性,本文采用三維卷積神經網絡模型(3D-CNN)[14]對其進行分類,并與支持向量機(support vector machine,SVM)在不同評價指標下進行比較。同時,通過梯度加權類激活映射方法(Grad-CAM)[15]和導向梯度加權類激活映射方法(Guided Grad-CAM)對3D-CNN進行可解釋性分析,以可視化的方式定位得到輸入樣本中影響3D-CNN決策的關鍵因素,以確定特定任務下所激活的功能腦區。

1 數據集與實驗方法

1.1 實驗數據

1.2 3D-CNN

在CNN被廣泛使用之前,大多圖片分類實驗使用全連接神經網絡。全連接神經網絡雖然在最終的分類結果上表現較好,但是也存在以下缺點:圖像展開為向量,丟失空間信息;參數過多,效率低下,訓練困難;大量的參數易導致網絡過擬合。CNN的提出恰好解決了以上問題。卷積操作能很好地提取數據的相鄰空間信息,避免數據的像素展開成向量后造成的空間信息損失。相比二維卷積,三維卷積增加了空間維度,其輸入數據和卷積核均為三維,表示為(P,Q,R),卷積操作如圖1所示。

圖1 三維卷積操作示意圖

對于功能磁共振數據,三維卷積能有效提取其空間特征。三維卷積操作如下

式中:vxyzij表示網絡第i層通道為j位于(x,y,z)的值;bij為偏置;wpqrijm表示通道為m的卷積核位于(p,q,r)的值。

本研究基于三維卷積方法,構建了一種用于識別任務態功能磁共振成像的三維卷積神經網絡(3DCNN)。該神經網絡結構是由輸入層、卷積層、池化層、激活函數層以及全連接層拼接而成。卷積層由多層三維卷積構成,是網絡的核心層,網絡中大部分的計算量都來源于此層。池化層對數據進行下采樣,從而減少網絡參數量。激活函數層為網絡增加了非線性因子,非線性激活函數能夠在輸入、輸出之間生成非線性映射。全連接層則是為了融合前面提取的特征,最后在輸出層對數據類別進行預測。3D-CNN網絡結構如圖2所示。

圖2 3D-CNN網絡結構

3D-CNN網絡由5層卷積層和3層全連接層組成。輸入的原始數據通道大小為1。其中,第1層卷積層的輸入大小為53×63×46,輸出通道大小為3,卷積核的大小為1×1×1。卷積核設置為1×1×1,目的是將圖片通道變為3,以便后續可使用Guided Grad-CAM進行可視化。整個網絡的池化層大小為2×2×2,全連接層的長度分別是64、32,最后是一個四分類的全連接層,分別對應LH、RH、AD、VS。損失函數選擇交叉熵損失函數,其在做分類(具體幾類)訓練時用。優化器被用來更新和計算影響模型訓練和模型輸出的網絡參數,使其逼近或達到最優值,從而最小化損失函數E(x)。常用的優化器有Adam、SGD、RMSprop等,本研究選用SGD優化器。訓練時網絡的學習率設置為0.001,動量參數設置為0.9,權重衰減為0.000 5,batch大小為64。

1.3 支持向量機

支持向量機是在分類與回歸分析中分析數據的監督式學習模型與相關的學習算法。在深度學習被廣泛運用之前,SVM是監督學習中最具影響力的算法之一。該算法的核心思想是找出最大的決策邊界,從而達到能最大程度分類數據的目的。SVM最初主要是用來解決二分類問題,在這個基礎上進行擴展后,也能夠處理多分類問題以及回歸問題。具體實驗步驟如下:

(1)對fMRI數據進行預處理,為提高輸入特征的有效度,將所有數據去除背景(設為0)并僅保留大腦體素。去除背景前后的數據(Axial方向的切片)對比如圖3所示。

圖3 預處理前與預處理后的t-fMRI數據對比

(2)將之前的三維數據(X,Y,Z)轉換為(X*Y*Z)。由于功能磁共振成像數據的復雜性,并不是每一個特征值都能很好地體現區分度,故某些特征值不存在分析的價值。將轉換后的數據表示為X=(X0,X1,…,Xn-1)m×n,其中,Xj=[x0j,x1j,…,x(m-1)j]T。通過設置方差閾值去除不必要的特征,以提取關鍵的大腦區域。計算式為

2016年,倦怠發生比例最高的是重癥醫學(55%)、泌尿醫學(55%)和急診醫學(55%);2017年,倦怠比例發生最高的是急診醫學(59%)、婦科醫學(56%)和家庭醫學(55%);2018年倦怠發生比例最高的是重癥醫學(48%)、神經醫學(48%)和家庭醫學(47%)。見表1。

(3)使用LinearSVC對數據進行分類。LinearSVC是根據liblinear實現的線性分類支持向量機,既能實現二分類,也能實現多分類。

1.4 腦激活定位

執行不同任務時會激活對應的腦區,為了探索這種相關性,借助分類結果,采用可視化的方式對其進行定位。相關實驗表明,CNN的卷積層能提取輸入數據的空間位置信息,因此卷積層具有定位的能力?;诖四芰?,可以獲取圖像中影響CNN決策的關鍵因素。但是為了整合卷積層所提取的特征,CNN網絡使用了全連接層,這樣破壞了CNN的定位能力。為了解決這個問題,Zhou等[16]提出了類激活映射(class activation mapping,CAM)解釋方法。CAM以熱力圖的形式可視化類激活圖,即使用全局平均池化(global average pooling,GAP)替代CNN最后的全連接層。CAM雖然能減少CNN的訓練參數,但是造成了網絡結構的改變,所以需要重新訓練網絡,這無疑是很耗時的一項工作。因此,本文采用效率更高的Grad-CAM方法,Grad-CAM是CAM的一種泛化形式,該算法不需要對網絡重新訓練。Grad-CAM的計算為

式中:c為網絡判別的類別;yc為該類別對應的logits(即沒經過Softmax的值);A為卷積輸出的特征圖(最后一層卷積);k為特征圖的第k通道;i、j分別為特征圖的橫、縱坐標;Z為特征圖的大?。撮L×寬)。

這一過程是求特征圖上梯度的均值,相當于一個全局平均池化操作。

得到權重后將特征圖在通道維度上進行線性加權,融合得到熱力圖,如式(6)。Grad-CAM對融合后的熱力圖增加一個ReLU操作,只保留與結果呈正相關的值。

一般來說,Grad-CAM在2D數據上會有更好的表現。因此,從3D數據fMRI中提取Axial方向的2D切片,再把提取出來的切片作為Grad-CAM的輸入。

Grad-CAM是一種以粗粒度的方式對影響CNN決策的關鍵因素進行可視化的方法,缺少了如GuidedBP[17]這樣像素級別的細粒度可視化效果。因此,本文繼續采用Guided Grad-CAM,對CNN網絡進行細粒度的可視化解釋,Guided Grad-CAM由Grad-CAM與GuidedBP結合而成。在GuidedBP中,舍棄第一層卷積層,直接獲取第二層卷積層的梯度。

2 實驗結果與分析

本實驗硬件環境基于Windows平臺,配置為11 th Gen Intel Core i7-11800H,NVIDIA GeForce RTX 3070顯卡。實驗代碼均使用Python編程語言。

為了更好地對比3D-CNN與SVM的性能,采用4個常用的評價指標:準確率(Accuracy,ACC)、精確率(Precision)、召回率(Recall)以及F1-score。表1展示了4種任務態在不同模型中各個評價指標的情況。

表1 SVM和3D-CNN模型在不同評價指標上的表現

從表1可知,3D-CNN在各個指標上的數據都優于SVM,產生這種現象很大程度上是由于三維fMRI數據在轉換為一維數據過程中丟失了信息。而3DCNN的輸入是原始數據,因此很好地保留了數據的空間特征。

圖4為3D-CNN模型在訓練時的損失曲線,從圖4可以看出,模型在40次迭代后已基本趨于收斂。

圖4 3D-CNN訓練時的損失曲線

可視化結果如圖5所示。

圖5 Grad-CAM和Guided Grad-CAM在4種不同t-fMRI上的可視化結果

從4種不同t-fMRI中分別選出3幅在Axial方向的圖像。在每張圖中,第1列為原始圖像,第2列為Grad-CAM中的熱力圖,第3列和第4列分別為Grad-CAM和Guided Grad-CAM的可視化結果。相關研究表明,當人使用左(右)手時,右(左)腦會產生反應。大腦中負責聽覺處理的主要部位是顳橫回,距狀溝則負責視覺處理。其中,顳橫回位于大腦外側溝下壁上,距狀溝位于腦半球內側面后部。對比圖5發現,其可視化結果與實際研究相符,即左(右)手握緊激活右(左)腦區,聽覺刺激激活大腦中央,視覺刺激激活大腦后部。

3 結語

本文提出的3D-CNN模型能很好地對任務態fMRI進行分類,與傳統機器學習算法SVM相比,3DCNN具有更好的分類效果,其能直接對t-fMRI進行分類,無需人為特征提取,并且避免了高維數據轉換為一維數據時造成的空間信息丟失。通過采用Grad-CAM和Guided Grad-CAM對3D-CNN進行可解釋性研究,確定了不同任務狀態下所激活的大腦區域,從而達到通過t-fMRI解碼大腦活動狀態的目的。

猜你喜歡
磁共振可視化卷積
基于CiteSpace的足三里穴研究可視化分析
思維可視化
基于3D-Winograd的快速卷積算法設計及FPGA實現
磁共振成像不同掃描序列診斷肛瘺診斷價值
基于CGAL和OpenGL的海底地形三維可視化
磁共振有核輻射嗎
卷積神經網絡的分析與設計
“融評”:黨媒評論的可視化創新
從濾波器理解卷積
磁共振有核輻射嗎
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合