?

基于多尺度結合全局和局部注意力的肺結節良惡性分類網絡

2024-01-09 09:13李炳淑孫福振
關鍵詞:尺度注意力惡性

李炳淑,呂 楠,孫福振

(1.山東理工大學 計算機科學與技術學院,山東 淄博 255000; 2. 山東省慢性病醫院(山東省康復中心),山東 青島 266071)

肺癌是臨床致病率、致死率較高的癌癥,對肺結節進行良惡性分類是針對肺癌早期診斷的重要環節,臨床上常采用計算機斷層掃描(computer tomography,CT)圖像對肺部的肺結節進行診斷[1]。但人工診斷肺結節過程需依賴臨床醫生的診斷經驗且過程耗時耗力,采用計算機輔助診斷系統進行肺結節良惡性自動分類已經成為主流。

深度學習方法被越來越多的研究者應用到肺結節良惡性分類中。Song等[2]采用經典卷積神經網絡結構進行肺結節良惡性分析。Nibali等[3]以殘差神經網絡(residual neural network,ResNet)架構為基礎,分別結合課程學習、轉移學習和不同網絡深度,對比不同網絡結構下肺結節良惡性的分類性能。為了驗證不同網絡結構性能,Agnes等[4]對比了循環神經網絡、長短時記憶力網絡和卷積神經網絡等多種深層網絡結構。Shen等[5]使用參數共享卷積神經網絡實現肺結節圖像特征提取以及多任務分類。為了解決樣本量小的問題,王桂棠等[6]提出一種聯合生成對抗網絡與卷積神經網絡的分類結構,使用漸進式訓練模式生成清晰圖像作為擴充樣本,并在公開數據集上驗證了模型的可行性和有效性。Zhao等[7]使用多個網絡進行特征融合實現肺結節分類。朱輝等[8]提出一種改進的U-Net卷積神經網絡肺結節檢測算法,采用卷積操作與池化操作獲取高層特征,通過密集連接使特征信息在輸入層和輸出層之間流通,并結合膨脹卷積提高肺結節低層特征的利用率。楊楊等[9]采用多視角結合擠壓激勵模塊構建多視角肺結節良惡性識別模型以解決多視角差異性問題。Kalaivani等[10]提出一種采用密集連接卷積神經網絡和自適應增強算法對肺部圖像進行良惡性分類的方法。He等[11]提出基于改進的Shapley加法擴展解釋模型指導的肺部分類方法,通過使用醫學先驗知識和圖像學習提取圖像特征。Liu等[12]提出一種多模型集成學習架構,該架構將結節掩碼對應的強度圖像、原始圖像和增強圖像拼接后進行輸入,提取圖像的高級特征,并通過動態選擇不同結節大小所對應的模型進行預測。Yu等[13]通過改進ResNet50,用三維卷積層代替二維卷積層,減小部分卷積核的大小,得到用于肺結節良惡性診斷的三維ResNet50網絡。盡管現有方法已取得較好的肺結節良惡性分類結果,但由于肺結節一般具有不同尺寸大小,基于固定感受野的網絡結構無法充分捕獲圖像的多尺度特征。與此同時,如何更加有效地學習肺結節圖像中的全局和局部特征是提升肺結節良惡性分類性能的重要方面。文獻[14]設計了多尺度特征融合網絡,但未考慮網絡因層次變化而帶來的多尺度特征差異。

近年來,在提升分類算法準確度上研究人員提出一種借鑒人類視覺的注意力機制。注意力機制可以根據特征的重要性動態調整特征權重,使模型能夠關注圖像的重點區域,減少不必要信息干擾。Jiang等[15]提出一種基于注意機制以及上下文特征信息提取深層次特征的方法,實現肺結節智能化診斷,分類結果準確度較高。Huang等[16]提取肺結節不同尺度特征并結合通道注意力和混合損失實現多種抽象圖形特征學習,提高小惡性結節的預測精度。Fu等[17]提出一種跨任務網絡,通過注意力模塊分析肺結節在CT圖像上的不同臨床特征屬性,實現高準確度良惡性分類。Liu等[18]設計了Res-trans網絡學習肺結節局部和全局特征,對CT掃描中的肺結節進行分類,并在LIDC-IDRI數據集上驗證了網絡有效性。Al-Shabi等[19]提出一種具有通道注意力和課程學習漸進生長網絡的方法,通過學習肺結節全局特征,提升模型分類性能。

盡管上述方法在肺結節智能診斷任務上取得較好效果,但均未同時考慮多尺度、全局和局部特征,影響了網絡對于不同尺度以及感受野下的特征學習。為此,本研究提出一種基于多尺度結合全局和局部注意力的肺結節良惡性分類網絡,通過設計的多尺度層提取肺結節圖像的多尺度特征,并結合注意力機制層學習肺結節圖像的全局和局部特征。在公開數據集LIDC-IDRI上的測試結果證明,所提出的分類網絡在準確度、敏感度、特異性和接收者操作特征曲線下面積等方面均獲得良好的分類性能。

1 基于多尺度結合注意力機制的肺結節分類網絡

本研究提出的基于多尺度結合全局和局部注意力的肺結節良惡性分類網絡(以下簡稱本網絡)結構如圖1所示,通過有效學習輸入圖像的多尺度、全局和局部注意力特征提高分類性能。

圖1 基于多尺度結合全局和局部注意力的肺結節良惡性分類網絡結構示意圖

對于輸入的肺結節圖像,網絡首先經過卷積層提取淺層特征,卷積核大小和數量分別為3×3和64;然后通過設計的多尺度層,在不同感受野和深度網絡層級下學習圖像的多尺度特征,并通過連續的池化層、卷積層和多尺度層獲得高層次的語義特征。另外,為了使網絡能夠充分學習全局和局部的注意力特征,將獲取到的高層次語義特征輸入到設計的注意力機制層進行特征增強。最后,將增強后的特征輸入到全連接層,并通過Softmax函數實現肺結節良惡性分類。網絡具體參數設定如表1所示。

表1 網絡結構參數設定

1.1 多尺度層

肺結節往往存在不同尺寸,傳統的網絡結構無法充分學習肺結節的多尺度特征。因此,設計一種多尺度層,在不同的感受野和網絡深度下充分學習肺結節的多尺度特征,結構如圖2所示。

圖2 多尺度層結構示意圖

定義Fi為第i層卷積層的輸出,將Fi輸入到多尺度層中,并分別設定三條特征提取路徑,每條路徑設置卷積層的卷積核大小分別為{1×1,3×3,6×6}、{3×3,1×1,6×6}、{6×6,3×3,1×1}。這里{1×1}可以有效學習肺結節細節特征信息,{3×3}獲取中級尺寸特征信息,{6×6}學習較大尺寸特征信息。三條特征提取路徑分別表示為:

(1)

(2)

(3)

(4)

式中,Concat表示特征拼接。

1.2 注意力機制層

1.2.1 通道注意力模塊

在肺結節分類任務中,為了使本網絡聚焦在肺結節主體區域,抑制非主體區域的影響,本研究使用加權通道注意力機制,動態學習不同通道特征的重要性,增強主體區域的特征表達,抑制非主體區域的特征表達,使本網絡能夠有效地聚焦在全局重要信息,其結構如圖3所示。

圖3 通道注意力模塊的結構示意圖

首先,定義最后一層多尺度層的輸出為F∈RH×W×C,H、W和C分別表示特征F的高度、寬度、通道數。為了學習不同通道的重要性,增強有效信息,抑制無效信息,對于輸入F采用全局最大池化(global max pooling,GMP)和全局平均池化(global average pooling,GAP),得到:

mc=max(Fc(x,y)),

(5)

(6)

式中:mc和ac分別表示第c個特征通道的全局最大池化層權重和全局平均池化層權重,Fc(x,y)表示第c個特征通道(x,y)位置的特征像素。為了獲取更多的非線性信息,將mc和ac分別經過2個全連接層(fully connected layers,FC)進行處理,并加入ReLU非線性激活函數。這里定義非線性化處理后的特征輸出分別為FM和FA。為了獲得對應權重矩陣,對FM和FA分別使用Sigmoid激活函數計算權重:

(7)

式中,v表示輸入特征FM和FA每個像素位置的具體值,則權重計算過程可以表示為:

Mw=σ(W2δ(W1mc)),

(8)

Aw=σ(W4δ(W3ac))。

(9)

式中:Mw和Aw分別表示所計算的全局最大池化層權重矩陣和全局平均池化層權重矩陣,δ為ReLU激活函數,W1、W2、W3、W4分別表示全連接層的權重參數。

然后,將獲得的權重矩陣與輸入的多尺度特征進行式(10)、式(11)的點乘運算,以獲得增強后的通道注意力特征。

FM=F⊙Mw,

(10)

FA=F⊙Aw。

(11)

式中,⊙表示點乘運算。

最后,由FM和FA共同連接組成通道注意力模塊的輸出特征FC,即:

FC=Concat(FM,FA)。

(12)

1.2.2 空間注意力模塊

為了使本網絡能夠充分學習肺結節的局部細節特征信息,設計一種空間注意力模塊,通過學習像素級空間注意力特征增強本網絡對肺結節細節信息的捕獲能力,其具體結構如圖4所示。

圖4 空間注意力模塊的結構

類似地,定義最后一層多尺度層的輸出為F∈RH×W×C,在對特征進行處理前,首先進行特征壓縮,即采用卷積核大小為1×1,通道數為1的卷積層對F進行壓縮得到Fd,然后采用Sigmoid激活函數對Fd進行權重計算:

(13)

式中,Wd表示所計算的位置權重矩陣。下一步將Wd和輸入的特征F進行像素逐元素相乘,同時為進一步提高本網絡的收斂性,采用殘差連接將特征進行點加操作:

FP=F⊙Wd⊕F。

(14)

通過本節設計的空間注意力模塊,本網絡能夠更加高效地學習肺結節圖像的高層次位置以及細節特征信息,提高網絡對于肺結節局部信息的捕獲能力,提升網絡對于肺結節的分類性能。

2 網絡訓練與配置

經過注意力機制層的特征學習后,將獲取的特征輸入到線性層中并使用Softmax激活函數,進行特征到類別的概率映射,其中Softmax函數σ定義為:

(15)

式中:K=2,表示類別總數;σ(p)j表示第j個類別的概率,j=1,2。網絡在訓練過程中采用交叉熵損失函數L進行優化,具體表達式為:

(16)

式中:Ln表示第n個樣本的損失,yn表示第n個樣本的真實標簽,pn表示第n個樣本的預測概率。網絡訓練過程中,采用Xavier算法初始化網絡學習參數,使用隨機梯度下降法進行網絡優化。

3 實驗結果與分析

本網絡在訓練過程中,采用NVIDIA GTX 1080Ti進行加速訓練,運行系統為Linux Ubuntu 16,編程代碼平臺為Pytorch,在初始訓練過程中設置學習率為0.000 1。當在驗證集上的損失經過10個步長不再變化時,將學習率進行衰減,為了防止本網絡過擬合,采用Dropout層進行訓練。

3.1 LIDC-IDRI數據集

LIDC-IDRI公開數據庫共有1 018名患者的CT掃描圖像,每個患者CT圖像的切片厚度為0.6~5 mm,具體診斷信息由4位放射科醫生診斷標注,標注的信息包含肺結節的位置、直徑、良惡性、鈣化程度、毛刺程度等屬性特征。本網絡主要用于良惡性分類,在該數據集中對于良惡性的診斷分為1~5分。為了獲得每個肺結節最終的真實標簽類別,采用投票策略進行判定,即對于單一肺結節,若專家有一半及以上人數打分大于3則認定為惡性肺結節,若專家有一半及以上人數打分小于3則認定為良性肺結節。為了降低網絡復雜度,采用肺結節中心橫截面作為輸入圖像,在網絡的訓練過程中,采用隨機旋轉、翻轉、放大和縮小等數據擴增方法進行數據擴充。

3.2 評價標準

為評估本網絡的性能,在實驗部分采用準確度(accuracy)、敏感度(sensitivity)、特異性(specificity)、接收者操作特征曲線(receiver operating characteristics,ROC)以及接收者操作特征曲線下面積(area under receiver operating characteristics curve,AUC)進行量化評估。具體地,定義真陽性、假陽性、真陰性、假陰性分別表示為TP、FP、TN、FN。則準確度為:

(17)

敏感度為:

(18)

特異性為:

(19)

3.3 實驗結果對比

3.3.1 多尺度層不同大小卷積組合的性能比較

為獲取不同層次的多尺度特征,在多尺度層中采用大小分別為{1×1,3×3,6×6}的卷積進行特征學習,同時將該層分別放在卷積層后和池化層前,以便隨著網絡深度增加不斷學習層次化抽象特征。本節設計了不同大小卷積組合,驗證多尺度層中卷積大小對網絡性能的影響,具體對比結果如表2所示。表2中,“No Multi-Conv”表示無多尺度卷積層,“Multi-Conv(1)”“Multi-Conv(1,3)”“Multi-Conv(1,3,6)”分別表示多尺度卷積層卷積大小為1,1和3組合,1、3、6組合3種不同網絡設置。實驗結果表明,隨著卷積組合增多,網絡的性能不斷提升,但考慮到網絡的復雜度,本網絡中采用卷積大小為(1,3,6)作為多尺度卷積層最終配置。

表2 多尺度層不同大小卷積組合的性能比較

3.3.2 不同網絡層的性能比較

本節通過消融實驗驗證本網絡中多尺度層和注意力機制層的作用。將多尺度層命名為“MSL”,通道注意力模塊命名為“CHA”,空間注意力模塊命名為“SSA”,對所設計的不同部分實驗結果對比如表3所示。實驗結果表明,通過增加任意一多尺度層或者注意力機制層都可以有效提升網絡的性能。與注意力機制層相比,多尺度層可以取得更好的分類結果,這表明在肺結節分類任務中多尺度特征對于良惡性分類具有重要的作用。同時,從實驗結果中還發現,“CHA”的性能要高于“SSA”性能,表明全局特征在此次分類任務中具有更重要作用。

表3 不同網絡層的性能比較

3.3.3 不同圖像輸入尺寸的性能比較

為探尋不同圖像輸入尺寸對本網絡性能的影響,分別輸入圖像尺寸{32×32,64×64,128×128,256×256,512×512}進行性能比較。為保證網絡的深度不受原始圖像分辨率影響,在網絡訓練過程中只采用池化層對圖像特征進行降維,不同圖像輸入尺寸對比實驗結果如圖5所示。實驗結果表明,網絡的性能隨著輸入尺寸的增加而提升,但當圖像輸入尺寸達128×128時,網絡的性能變化無太大差異,這是由于多尺度層在該尺寸下已經充分學習多種不同尺度特征,因而隨著圖像輸入尺寸的增加而性能變化不大。因此,綜合考慮網絡的復雜度及性能,最終設定輸入尺寸為128×128。

圖5 不同圖像輸入尺寸的準確度比較

3.3.4 注意力模塊在不同層位置性能比較

對注意力模塊在網絡中的位置性能進行實驗對比,將注意力模塊放在網絡的淺層、中層和深層,實驗結果如圖6所示。實驗結果表明,隨著注意力模塊的位置不斷加深,網絡的性能不斷提升,這可以解釋為越深層的注意力特征可以為肺結節的良惡性分類提供越抽象化的特征信息,從而提升網絡整體分類性能。最終,本研究將注意力模塊放在網絡深層,分類結果的準確度、敏感度、特異性分別為90.9%、92.3%、94.9%。

圖6 注意力模塊在不同層位置的性能比較

3.3.5 與傳統分類方法的性能比較

將本網絡與傳統的深度學習網絡VGG、ResNet18、DenseNet進行實驗對比,對比時采用網絡原始參數和相同數據集,對比結果如圖7所示。對比結果表明,與傳統的分類網絡相比,本網絡性能更好,再次驗證了注意力機制層和多尺度層的作用。

圖7 與不同網絡結構對比的ROC曲線

3.3.6 與現有分類方法的性能比較

在相同數據集上與現有分類方法進行性能比較,對比結果如表4所示??梢钥闯?本網絡在準確度、敏感度、特異性、AUC上均取得較好的分類表現。特別是敏感度達到92.3%,相比其他方法有較大提升。圖8展示了本網絡方法對于不同肺結節預測的概率,概率越高表示惡性程度越大,從預測結果可以看出,本網絡方法能夠準確地預測肺結節良惡性。

表4 不同分類方法的性能比較

圖8 不同肺結節良惡性預測結果以及對應類別概率

4 結論

本研究提出一種多尺度結合全局和局部注意力的肺結節分類網絡,通過加入多尺度層和注意力機制層,學習肺結節的多尺度、全局和局部特征信息,提高網絡分類性能。在公開數據集LIDC-IDRI上驗證表明,本網絡具有良好的分類效果。由于考慮到模型復雜性,本網絡僅采用二維結構進行特征學習,在獲取肺結節空間特征方面有所缺失。下一步,將擴展網絡到三維結構,并驗證其有效性。

猜你喜歡
尺度注意力惡性
讓注意力“飛”回來
惡性胸膜間皮瘤、肺鱗癌重復癌一例
財產的五大尺度和五重應對
卵巢惡性Brenner瘤CT表現3例
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
宇宙的尺度
甲狀腺結節內鈣化回聲與病變良惡性的相關性
多層螺旋CT在甲狀腺良惡性病變診斷中的應用
9
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合