?

基于切片關聯信息的慢性阻塞性肺疾病CT診斷

2024-03-04 06:05梁宇辰歐陽文生謝依穎
廣東工業大學學報 2024年1期
關鍵詞:切片關聯卷積

梁宇辰,蔡 念,歐陽文生,謝依穎,王 平

(1.廣東工業大學 信息工程學院, 廣東 廣州 510006;2.廣州醫科大學附屬第一醫院 肝膽外科, 廣東 廣州 510120)

慢性阻塞性肺疾病(Chronic Obstructive Pulmonary Disease,COPD) 是一種常見的全球性呼吸疾病,已成為全球的第三大死因[1]。近些年,我國的COPD患病率也呈現不斷上升趨勢,且死亡率高于全球平均水平[2-3]。COPD患者通常會出現氣道嚴重阻塞現象,進一步導致呼吸困難,甚至存在肺心病、呼吸衰竭等風險[4]。目前,主要采用CT圖像評估[5-6]鑒別COPD肺部異常,這需要醫生根據COPD患者的上百張CT序列圖片中的病灶氣泡占比情況進行主觀分析,耗費醫生大量精力和時間,也給醫生帶來視覺疲勞并影響主觀評估[7]。

近幾年,隨著深度學習尤其是卷積神經網絡(Convolutional Neural Network, CNN)的高速發展,CNN已經被廣泛應用于CT圖像處理,以輔助肺部疾病診斷。Shah等[8]使用VGG-19對新型冠狀病毒肺炎(Corona Virus Disease 2019 ,COVID-19) 進行診斷。Polat等[9]在Inceptionv3模型上使用遷移學習,從患者的單張胸部CT圖像獲取病灶信息識別COPD的嚴重程度。雖然上述方法在肺部疾病輔助診斷上取得不錯的效果,但是這些方法只考慮了部分CT切片圖像內的局部病變肺泡特征,沒有考慮CT切片圖像之間的關聯信息,這將不利于肺部病灶區病變肺泡識別[10]。

Xu等[11]從胸部CT序列中隨機選出8張CT圖像,采用AlexNet網絡對每張CT圖像進行特征提取,然后采用SVM進行分類實現COPD診斷??墒?,該方法只對單張CT圖像進行單獨分析,雖然SVM對8張CT圖像進行了分類,但是本質上仍未考慮這8張CT切片之間的關聯信息。Ahmed 等[12]將VoxResNet拓展到3D卷積結構,通過多個殘差3D卷積結構保留盡可能多的空間信息對CT序列圖像進行處理來診斷COPD。Varchagall等[13]使用3D ResNet提取CT圖像病灶空間特征并使用遷移學習進行肺癌診斷。Kienzle等[14]將ConvNeXt網絡拓展到3維結構構成3D ConvNeXt網絡對COVID-19進行診斷。這些網絡都是采用3D卷積方法對CT序列圖像進行處理,但是3D卷積難以提取病灶區細微肺泡特征,影響網絡的分類效果。Wu等[15]從CT序列圖像中提取氣管樹圖像和9張3D肺部圖像等其他模態信息作為ResNet26的網絡輸入,從而實現COPD輔助診斷??墒?,該方法受制于氣管樹3D形態提取的精準性,缺乏COPD輔助診斷的便捷性。Kollias等[16]使用CNN和RNN分別獲取局部病變肺泡的圖像特征和全局切片間的關聯信息,構建了一種MIA-COVID-19網絡對COVID-19進行診斷。Humphries等[17]結合CNN與長短時記憶(Long-Short Term Memory, LSTM)對COPD進行診斷。上述兩個網絡可以同時學習病灶圖像局部特征和切片之間全局關聯信息。但是,它們直接對上百張CT切片圖像進行特征關聯信息提取,忽視了不同距離的CT切片圖像之間的關聯性是不同的。

本文提出一種基于CT切片圖像關聯信息的深度網絡,輔助診斷COPD。將COPD患者胸部CT切片序列分為若干組作為整個網絡的網絡分支的輸入,同時提取組內切片之間的局部關聯信息和各切片內的病灶圖像局部特征。為了提高各網絡分支的病灶圖像局部特征提取能力,融入ConvNeXt提出一種增強的多頭卷積注意力模塊。

1 方法

1.1 網絡結構

基于切片關聯信息的COPD診斷網絡輸入COPD患者的胸部CT圖像序列,輸出診斷結果。網絡由多個局部切片關聯信息提取分支和一個全局的切片關聯信息提取階段構成。圖1展示了3個分支組成的網絡結構示意圖。局部切片關聯信息提取分支由Conv STEM模塊、En-MHCA模塊、Down Sample模塊和Ef-Transformer模塊構成,主要提取組內CT切片之間的局部關聯信息和組內CT切片病灶區的局部圖像特征。將每個分支的特征信息以N切片數的維度進行二次拼接組成局部特征序列輸入到全局切片關聯信息提取階段,該階段主要由BiLSTM[18]構成,提取各分支之間的切片之間的全局關聯信息。最后,級聯一個多層感知器(Multi-Layer Perceptron,MLP)進行COPD診斷。

圖1 本文提出的深度網絡架構Fig.1 The framework of the proposed deep network

1.2 局部切片關聯信息提取分支

肺部病變肺泡是COPD患者的典型病理特征,是COPD診斷重要依據。根據合作醫生提供的先驗知識[19],COPD病變肺泡通常在3至4張CT切片中就能觀察到完整的病變肺泡結構;在一些切片數量較多的情況中,病變肺泡可能分布在10張左右CT切片中。因此,本文提出對COPD患者胸部CT序列圖像進行合理分組,各分組可以提取組內CT切片之間的局部關聯信息和組內CT切片病灶區的局部圖像特征。

將COPD患者CT序列數據劃分為若干組,每組內有N張切片,每張CT切片圖像維度為(C,W,H) ,其中C代表特征通道數,W代表圖像寬度,H代表圖像高度。本文中,N經驗選擇為10,后續消融實驗將驗證此選擇。因此,分組后的序列圖像組數由患者CT序列的切片總數決定,如患者CT序列為400張CT切片,則分組數為40組。

將各組CT切片作為各局部切片關聯信息提取分支的輸入,其結構如圖2所示。其中,Conv STEM模塊用于低維特征提取,2個En-MHCA模塊和2個Down Sample下采樣模塊用于提取高維局部病灶特征。提取到的高維特征按N切片數的維度拼接為特征序列輸入到Ef-Transformer模塊。圖2中僅展示了3張圖像的特征拼接情況。在Ef-Transformer模塊中,特征序列通過自注意力[20]獲取組內切片之間的局部關聯信息和局部病灶圖像特征。

圖2 局部切片關聯信息提取分支的結構Fig.2 The structure of the branch for local slice correlated information extraction

1.3 Conv STEM模塊

Conv STEM模塊的結構如圖3所示,包含一組由Depth Wise卷積層和Point Wise卷積層構成的深度可分離卷積層、Batch Normal歸一化層、Max Pool層和ReLU層,數學表示為

圖3 Conv STEM的結構Fig.3 The structure of the Conv STEM

式中:x1為輸入特征,M代表Max Pool層,R代表ReLU激活函數層,BN代表Batch Normal歸一化層,PWC 代 表Point Wise卷積層, D WC代表Depth Wise卷積層。

1.4 Down Sample模塊

Down Sample模塊的結構如圖4所示,主要由1個Convolution層和1個Max Pool層構成,其數學表示為

圖4 下采樣模塊Fig.4 Down sampling module

式中:x2為該模塊的輸入,Conv() 代表卷積層操作。在圖4中,H、W和C分別為特征映射圖的高、寬和通道數,N為切片數。

1.5 En-MHCA模塊

受ConvNeXt[21]的啟發,提出了一個增強的多頭卷積注意力模塊(Enhanced Multi Head Convolutional Attention, En-MHCA) 。與傳統的多頭卷積注意力模塊(Multi Head Convolutional Attention, MHCA)[22]不同的是,En-MHCA融合ConvNeXt進行特征提取和非線性擬合,去除了只有非線性擬合能力的MLP結構,因此En-MHCA本質上是一個倒置的多頭卷積注意力結構。傳統MHCA僅使用MHCA層進行特征學習,而且MLP結構僅有非線性擬合能力。相比之下, En-MHCA包含了2個擁有特征學習能力的殘差結構(即ConvNeXt和MHCA),具有更強的特征提取能力。

如圖5所示,ConvNeXt由1個Depth Wise卷積層、2個Point Wise卷積層以及殘差結構構成。Depth Wise卷積層是一個大小為3、步長為1且分組數和通道數一致的卷積層。Point Wise卷積層是一個大小為1、步長為1的通道轉換卷積層。經過1個Depth Wise卷積層、2個Point Wise卷積層后輸出的特征映射圖和ConvNeXt輸入特征映射圖進行一次殘差結構相加。

圖5 增強的多頭卷積注意力模塊Fig.5 Enhanced multi-head convolutional attention module

ConvNeXt輸出的特征映射圖作為MHCA輸入。MHCA主要由1個3 ×3分組卷積層、1個1×1卷積層、1個Batch Normal層和1個ReLU層構成,其數學表示為

式中:x3為 輸入特征映射圖,R1為ConvNeXt輸出特征映射圖,R2為MHCA輸出特征映射圖。

1.6 Ef-Transformer模塊

為了更好地獲取組內切片間的局部關聯信息,在分支中采用Ef-Transformer 模塊[23]提取特征。如圖6所示,特征映射圖經過1個Layer Norm層,再輸入到E-MHSA(Efficient Multi-head Self-attention)。EMHSA輸出的特征映射圖和Ef-Transformer輸入的初始特征映射圖通過一個殘差連接進行相加得到組內切片間的關聯信息S1。 隨后,S1經過1個Layer Norm層和1個MLP后,再與S1執行一次殘差連接相加。Ef-Transformer模塊的計算過程可以數學表示為

圖6 Ef-Transformer模塊Fig.6 The Ef-Transformer module

式中:x4為輸入特征映射圖,EMHSA代表多頭自注意力模塊操作,LN代表LayerNorm正則化層操作,S1為 一次殘差連接的輸出特征,S2為第二次殘差連接的輸出特征。

1.7 BiLSTM模塊

因為不同COPD患者的CT切片數是不一致的,所以各患者CT切片序列的分組數也有所不同。故采用BiLSTM多單元模塊來提取各組之間的切片全局關聯信息。BiLSTM結構如圖7所示,可以數學表示為

圖7 BiLSTM模塊Fig.7 The BiLSTM module

1.8 損失函數

采用交叉熵損失函數優化提出的深度網絡參數,數學表達為

式中:yi為 COPD真實診斷標簽,pi為模型根據數據診斷的結果,M表示訓練集的樣本數,i表示當前樣本序號。

2 實驗

2.1 數據集及訓練環境配置

本文實驗數據均由廣州醫科大學第一附屬醫院提供,共收集了161例COPD患者CT序列,每例數據包含130到400之間的CT切片圖像。因此,數據集總共包含43 140張CT切片圖像。每張切片圖像的分辨率是512×512,像素平均間距為0.68 mm,切片平均厚度為1.143 mm。由于患者隱私等協議條款,本文不能公開這些影像數據。

訓練集由110例共30 190張CT切片構成,測試集由51例共12 950張CT切片構成,數據標注均由經驗豐富的醫生完成。

本文實驗皆在一臺配置為NVIDIA RTX A6000 48 GB GPU和Inter Xeon(R) Gold 5218R 2.10GHz CPU的工作站上完成。模型訓練和測試代碼都是基于PyTorch 1.6(python3.8)深度學習框架編程實現,其訓練初始化參數如表1所示。

表1 模型訓練初始化參數Table 1 The initialization parameters of the model in training

評估標準有準確率(Accuracy, ACC)、靈敏度(Sensitivity, SEN)、特異性(Specificity, SPE)和受試者工作特征(Receiver Operating Characteristic, ROC)曲線下的面積值(Area Under Curve, AUC) 。其中,AUC的值由ROC曲線與坐標圍成的區域面積所得。ACC、SEN、SPE的計算公式為

式中:TP表示真陽性,真實標簽為COPD患者,模型預測為COPD患者;FP表示假陽性,真實標簽為COPD患者,模型預測為非COPD患者;TN表示真陰性,真實標簽為非COPD患者,模型預測為非COPD患者;FN表示假陰性,真實標簽為非COPD患者,模型預測為COPD患者。

2.2 消融實驗

(1) 不同模塊對網絡性能的影響。本文通過相關模塊的消融實驗說明網絡中相關模塊對網絡診斷性能的影響,Ef-Transformer縮寫為Ef-Trans,數據如表2所示。

表2 不同特征提取模塊的對比Table 2 Comparisons of different feature extraction modules

從表2可以看到,當只使用Ef-Trans時,網絡只獲取了組內切片間的局部關聯信息,而忽視了組間切片的全局關聯信息,從而導致網絡診斷性能最差。而當只采用BiLSTM時,網絡的診斷準確率等性能要比只使用Ef-Trans有大幅度的提升,這說明組間的長程關聯性對COPD診斷具有重要指導價值。當同時使用BiLSTM和Ef-Trans時,網絡性能相比于只使用BiLSTM時的網絡略微有所提升,這說明組間的切片全局關聯信息和組內的切片局部關聯信息的有機融合能提升COPD患者的CT序列分類效果。從最后一行數據來看,提出的增強多頭卷積注意力模塊與普通的多頭卷積主力模塊相比,網絡的診斷準確率等性能有所提升。

(2) 不同分組切片參數對網絡性能的影響。

為了探索不同的分組切片數對網絡性能的影響,本文做了對比實驗。如表3所示,當分組切片數為10時,網絡的AUC指標表現更好。這是因為過少的分組切片數會造成網絡無法獲取完整的結構關聯信息,而過多的分組切片數提供了冗余的切片關聯信息。

表3 不同分組切片參數的對比實驗Table 3 Comparative experiments with different grouping of slicing parameters

2.3 對比實驗

為了驗證提出模型的效果,將其與現有的一些基于CT圖像的肺部疾病深度學習方法進行對比,這些方法分別是VGG-19[8]、3D VoxResNet[12]、DCT-MIL[11]、MIA-COV19D[16]、3D ResNet[13]、CNN+LSTM[17]和3D ConvNeXt[14],結果如表4所示。

表4 不同深度學習方法的對比Table 4 Comparisons among different deep learning methods

從表4可以看出,VGG-19網絡在提取CT圖像特征過程中,網絡深度的增加導致病變肺泡特征信息丟失,且VGG-19網絡也未考慮切片之間的關聯信息,因此獲得非常差的COPD診斷性能。

3D ResNet和3D VoxResNet都通過殘差結構緩解因網絡深度不斷加深而丟失特征的現象,因此獲得比VGG-19網絡更好的COPD診斷性能。3D ConvNeXt網絡使用的3D ConvNeXt模塊具有很強的空間提取能力,因此獲得了高達92.91%的AUC值。雖然這3種3D網絡都較好地實現了COPD輔助診斷,但是它們僅使用CT圖像內的局部空間特征,忽視了切片間的關聯信息,因此難以獲取病變肺泡的整體形貌信息,不同程度地影響網絡診斷性能。MIACOV19D和CNN+LSTM采用CNN提取切片內的局部細節信息,分別采用RNN和LSTM提取CT序列的全局關聯信息,因此分別獲得了87.37%和83.22%的AUC值。但是,這兩種方法在提取CT序列的全局關聯信息時未考慮不同距離切片之間的關聯程度。DCTMIL采用AlexNet遷移特征,并采用多實例實習策略分析隨機選取的8張連續CT切片圖像,并考慮了鄰近切片之間的關聯性,因此也獲得了82.53%AUC值。但是,DCT-MIL忽視了整個CT序列的長程關聯關系,導致其診斷性能仍然較低。本文所提出的深度網絡結合了組間切片的全局關聯信息和組內切片的局部關聯信息,同時融合了切片圖像病灶區的局部圖像特征,因此獲得了最佳的COPD輔助診斷效果,準確率達到92.15%,敏感度達到94.17%,特異性達到91.17%,AUC達到95.33%。圖8為不同深度學習方法的ROC曲線圖。如圖8所示,本文網絡的ROC曲線包裹面積最大。

圖8 ROC曲線圖Fig.8 The ROC curves

3 結論

本文提出一種基于切片關聯信息的深度網絡,應用于COPD輔助診斷。采用分組方式,融合ConvNeXt和MHCA提出增強的多頭卷積注意力模塊(En-MHCA),提取組內CT切片間的局部關聯信息和CT切片病灶區的局部圖像特征。采用BiLSTM提取組間CT切片的全局關聯信息。實驗結果表明,提出的深度網絡比多個現有深度網絡具有更好的診斷性能,準確率、敏感度、特異性和AUC分別達到92.15%、94.17%、91.17%和95.33%。

猜你喜歡
切片關聯卷積
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
基于3D-Winograd的快速卷積算法設計及FPGA實現
“一帶一路”遞進,關聯民生更緊
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
奇趣搭配
智趣
基于SDN與NFV的網絡切片架構
腎穿刺組織冷凍切片技術的改進方法
冰凍切片、快速石蠟切片在中樞神經系統腫瘤診斷中的應用價值比較
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合