蔣清婷 葉海良 曹飛龍
醫學圖像分割是醫學圖像處理和分析領域中復雜、重要的任務之一[1-2].臨床醫生通常利用成像技術觀察圖像中器官等病變的情況,以便在疾病的早期階段進行干預[3].然而,醫學圖像本身往往存在邊緣模糊的問題,使邊緣分割的效果不夠理想,給臨床醫生的診斷帶來巨大的障礙[4-5].因此,醫學圖像邊緣的精準分割是一個極具前景的研究方向.
近年來,卷積神經網絡(Convolutional Neural Networks, CNN)在醫學圖像分割任務中取得重大進展.特別是,2015年Ronneberger等[6]提出U-Net,已成為后續許多醫學圖像分割方法研究的基準網絡[7-8].Zhou等[9]構造UNet++,設計密集跳躍連接,更好地利用不同尺度下解碼器的特征.Gu等[10]引入空洞卷積,提出CE-Net(Context Encoder Network).
然而,上述方法在編碼與解碼過程中都連續采樣,容易導致空間信息和細節信息的丟失,不利于醫學圖像的邊緣分割[11].為此,研究人員提出基于注意力機制的邊緣細化方法[12-14]和基于CNN的邊緣分割方法.Zhou等[15]提出CFA-Net(Cross-Level Feature Aggregation Network),設計兩個分割網絡,整合語義信息和邊界信息.Fan等[16]提出PraNet(Parallel Reverse Attention Network),引入反注意力模塊,關注病變區域外的邊緣部分.Cao等[17]提出TSD-BA(Two-Stage Decoding Network with Boundary Attention),利用粗預測作為先驗,進一步挖掘邊界特征.然而,上述方法僅考慮單獨添加先驗指導信息,未考慮特征通道之間的不平衡性,效果相對較弱,很難保證邊緣形狀分割的連續性.
近年來,圖神經網絡(Graph Neural Networks, GNN)在遠程信息推理方面顯示出巨大的潛力,已逐漸應用于醫學圖像的分割任務中[18].對于CNN很難保證目標形狀連續性的問題,GNN將形狀的連續性編碼為圖的約束,確保網絡預測的連續性[19].Shin等[20]使用CNN和GNN的組合進行視網膜血管分割.Meng等[21]提出邊界感知圖卷積網絡, 用于醫學圖像分割.進一步,Meng等[22]又提出一種基于GNN的區域和邊界聚合網絡.Wang等[23]提出CGRNet(Contour Guided Graph Reasoning Network).Liu等[24]提出MFBGR(Multi-scale Feature Boundary Graph Rea-soning Network for Polyp Segmentation).然而,上述方法均通過圖表示學習對邊界特征進行推理,忽略非目標邊界信息的干擾,容易造成目標邊緣推理的錯誤.
為了更好地解決上述問題,本文針對醫學圖像分割任務,提出基于邊緣選擇圖推理的三路徑網絡(Triplet-Path Network Based on Edge Selection Graph Reasoning, ESG-TNet),借鑒由粗化到細化的策略,實現逐步分割的思想.具體來說,ESG-TNet包括目標定位路徑、邊緣選擇路徑和細化路徑.在目標定位路徑中,構造多尺度特征融合模塊(Multi-scale Fea-ture Fusion Module, MFFM),融合高層特征,生成一個粗全局位置圖.在邊緣選擇路徑中,設計邊緣選擇圖推理模塊(Edge Selection Graph Reasoning Module, ESGM),選擇突出的關鍵目標邊緣特征進行圖推理,生成初始邊緣分割圖.在細化路徑中,將粗全局位置圖作為初始指導圖添加到淺層特征中,構建漸進式組級細化模塊(Progressive Group Refinement Module, PGRM),進一步挖掘結構信息和細節信息.此外,本文引入融合加權Focal Tversky 損失和加權交并比損失的復合損失,緩解類不平衡的影響.
本文提出基于邊緣選擇圖推理的三路徑網絡(ESG-TNet),整體框架如圖1所示.
圖1 本文方法流程圖
ESG-TNet包括目標定位路徑、邊緣選擇路徑和細化路徑.目標定位路徑包含多尺度特征融合模塊(MFFM),聚合主干網絡中最后三層的高級特征,實現初始的粗全局位置圖.邊緣選擇路徑包含邊緣選擇圖推理模塊(ESGM),選擇突出的目標邊緣特征進行圖推理,生成初始目標邊緣特征圖.細化路徑將目標定位路徑中得到的粗全局位置圖作為初始指導先驗添加到淺層特征中,通過漸進式組級細化模塊(PGRM)采取自下而上的方式進一步細化.
本文選擇Res2Net-50[25]作為ESG-TNet的主干網絡.Res2Net-50由1個卷積層、4個多層殘差卷積塊和1個全連接層組成.本文使用前5個卷積模塊,捕獲5個不同分辨率的特征圖.對于輸入尺寸為H×W×C的圖像X,在主干網絡中提取5個不同層次的特征圖,分別表示為F1,F2,…,F5,分辨率分別為
其中Ci表示第i個特征通道數.
由于醫學圖像的低層特征存在復雜的背景區域,容易導致不準確的目標分割.因此,本文設計多尺度特征融合模塊(MFFM),聚合高層特征,較準確地定位目標區域.故將該過程稱為目標定位路徑,具體流程如圖2所示.
圖2 MFFM流程圖
為了不增加計算成本,對最后三層的輸入特征Fi進行降維操作,每個分支使用1×1卷積核,將通道數減少到32,即
F′i=σ(Wi*Fi),i=3,4,5,
其中,Wi表示1×1的卷積核,*表示卷積操作,σ(·)表示ReLU函數.
本文使用連續的卷積和拼接操作融合相鄰兩個分支的特征,可得
i=3,4,
其中Γi、Qi和Qi+1表示3×3的卷積核.
MFFM整合多層高級特征,有效實現語義特征的融合,較準確地定位目標區域.
在目標定位路徑中,MFFM聚集最高的三層特征,實現粗全局位置圖.然而,低級特征通常也包含大量的邊界信息,有利于目標邊界的分割.現有方法往往忽略這點,同時還忽略非目標邊界信息的干擾,容易造成邊緣分割的錯誤.
因此,本文提出邊緣選擇圖推理模塊(ESGM),突出低級特征中的目標邊界信息,改善醫學圖像邊緣分割的質量,此過程稱為邊緣選擇路徑.ESGM流程圖如圖3所示.
具體地,首先將低層特征F1和F2經過一個1×1卷積層,動態考慮不同通道中同一空間位置信息的重要性,并根據相應的重要性對所有邊緣信息進行聚合,即
Ei=δ(Zi*Fi),i=1,2,
其中,δ(·)表示Sigmoid函數,Zi表示1×1的卷積核.然后,設置多個閾值過濾信息,確定邊緣信息的位置.假設ESGM包含N個路徑,每個路徑都使用一個閾值,第j個路徑的邊緣置信圖如下:
i=1,2;j=1,2,…,N,
其中,(m,n)表示空間坐標,τj表示第j個路徑對應的閾值.
通常確定相關信息的準則是:只有當Ei每個位置的元素大于或等于閾值時,該位置才被識別為目標邊緣位置.一般而言:設置一個較低的閾值意味著判斷條件不嚴格,可保留豐富的邊緣信息,但容易引入背景噪聲;設置一個高閾值意味著判斷標準十分嚴格,可收集有限且可靠的邊緣信息,但往往會丟棄一些潛在的邊緣信息,導致邊緣信息的不完整.這兩種設置在某種程度上是互補的.因此,本文考慮一個融合低、中和高三路徑信息的邊緣選擇,綜合考慮較低、適中和較高閾值的優勢,便于獲得較好的初始目標邊緣.
圖3 ESMG流程圖
轉換成
再投影到一個新的節點特征
Vi=PiXi∈RNi×Ci,i=1,2,
其中Pi∈RNi×Li表示投影矩陣.
2)圖推理.從Vi中學習節點之間的連通性,得到鄰接矩陣:
Ai=(Bi*Vi)(Bi*Vi)T∈RNi×Ni,i=1,2,
其中Bi表示1×1的卷積核.同時,利用圖卷積算子在節點之間傳播消息.根據文獻[26],圖卷積算子的定義為
Θi表示可學習的參數.
與1)類似,仍采用投影矩陣Pi實現.
綜上所述,ESGM不僅考慮邊緣特征的篩選,過濾大量背景噪聲的干擾,還利用圖推理網絡保證邊緣形狀的連續性,有效提升分割性能.
在目標定位路徑中,MFFM聚集最高的三層特征,捕獲粗全局位置圖.這些高級特征圖中具有豐富的語義信息,有利于目標定位,但忽略結構和細節信息.為此,本文構建漸進式組級細化模塊(PGRM),將粗預測圖作為初始指導先驗添加到淺層中,通過弱、中和強三種漸進式指導方式逐步挖掘醫學圖像的結構信息和細節信息,此過程稱為細化路徑.通過這種方式,網絡可識別更多醫學圖像的空間結構和細節信息,并逐步交互細化.PGRM流程圖如圖4所示.
本文設計一個反向指導策略,通過Sigmoid函數和反向操作,得到反向指導先驗:
其中,Down(·)表示下采樣操作,E表示元素全為1的矩陣.
圖4 PGRM流程圖
或
經過PGRM細化后,得到最終的分割預測:
綜上所述,PGRM實現結構信息和細節信息的細化,多階段的細化模塊更有利于提升分割性能.
受像素位置感知損失[28]的啟發,本文提出一個復合損失,定義為
L=LwFTL+LwIoU.
其中:LwFTL表示用于局部約束的加權Focal Tversky損失,可緩解醫學圖像的類不平衡問題;LwIoU表示用于全局約束的加權交并比損失.具體地,加權Focal Tversky損失定義為
LwIoU旨在優化全局約束,不受不平衡分布的影響,定義為
本文中所有的輸出分割圖都被上采樣到與分割標簽圖G相同的大小,因此,總損失
為了驗證ESG-TNet的有效性,選擇結腸鏡圖像CVC-ClinicDB[30]、CVC-ColonDB[31]和乳腺超聲圖像BUS-B[32]這3個醫學圖像數據集進行實驗.
CVC-ClinicDB數據集是一個公共的結腸鏡數據庫,包含612幅結腸鏡圖像,每幅圖像尺寸為384×288,病變平均占比為9.3%±7.76%.CVC-ColonDB數據集包含380幅結腸鏡圖像,每幅圖像尺寸為574×500,病變平均占比為7.45%±10.8%.2個數據集的訓練集和測試集比例與PraNet[16]一致,均為9∶1.
BUS-B數據集包含163幅乳腺超聲圖像,每幅圖像都含有一個或多個病變區域,每幅圖像的尺寸是變化的,病變平均占比為4.84%±5.45%.與Atten-tion UNet[33]一樣,該數據集隨機將75%的樣本用于訓練,剩余25%的樣本用于測試.
本文使用縮放、翻轉、直方圖匹配和旋轉四種方式進行數據增強,所有的輸入圖像尺寸統一調整為256×256.優化器采用Adam(Adaptive Moment Es-timation)[34],初始學習率設置為1e-4,每20輪衰減一半.這3個數據集均訓練100個迭代周期,批大小設置為10.
所有實驗均在NVIDIA RTX 2080Ti GPU上基于Pytorch框架實現.漸進式組級細化模塊(PGRM)中分組為g0=1,g1=4,g2=32.在邊緣選擇中,經驗性設置超參數τ1=0.3,τ2=0.5,τ3=0.7.在損失函數中,經驗性設置超參數γ=4,η=1.5.
本文采用DSC(Dice Score)[35]、交并比(Inter-section over Union, IoU)、精確度和召回率作為評價指標[36-37].
為了驗證ESG-TNet的醫學圖像分割性能,本文選擇如下對比方法.
1)經典方法:U-Net[6]、UNet++[9].
2)基于注意力機制的方法:基于三重交互關注網絡 (Triplet Interactive Attention Network, TIAN)[7]、SANet (Shallow Attention Network)[12]、AAU-Net (Adap-tive Attention U-Net)[13]、PVT-CASCADE (Pyramid Vi-sion Transformer and Cascaded Attention Decoder)[14].
3)基于邊緣分割的方法:CFA-Net[15]、PraNet[16]、TSD-BA[17].
4)基于卷積神經網絡和圖神經網絡結合的方法:CGRNet[23].
各方法在3個數據集上的指標值對比如表1~表3所示,表中結果為5次實驗的平均值,黑體數字表示最優值.各方法可視化效果對比如圖5~圖7所示.
表1 各算法在CVC-ClinicDB數據集上的定量對比
表2 各算法在CVC-ColonDB數據集上的定量對比
表3 各算法在BUS-B數據集上的定量對比
從表1可以看出,在CVC-ClinicDB數據集上,ESG-TNet在DSC、IoU和召回率指標上實現最優,在精確度指標上取得第三優.盡管PraNet的精確度為94.85%,但召回率只有91.86%,這意味著該結果的假陰性較高、真陽性較低,造成分割錯誤.因此,只有較高的精度不足以表明其良好的分割性能,而本文的損失函數有助于精確度和召回率之間的平衡.圖5中對比方法存在不能正確識別病變區域的情況,但ESG-TNet不僅能準確識別病變區域,還能較好地保證邊緣分割的形狀.
從表2可以看出,在CVC-ColonDB數據集上,ESG-TNet在DSC、IoU和召回率指標上實現最優,在精確度指標上實現第三優.對比其它方法,ESG-TNet分別在DSC、IoU和召回率指標上至少提升0.85%,0.28%和1.21%.從圖6可看出,對比方法不能有效定位病變區域的位置,在區域邊界分割上存在嚴重的分割不足,難以分割正確的區域邊界.
從表3可以看出,在BUS-B數據集上,ESG-TNet在所有指標上均實現最優.由于該數據集存在嚴重的邊緣模糊問題,很難區分區域和背景,導致分割困難.從圖7可看出,對比方法幾乎難以分割區域及區域的邊界,而ESG-TNet能較好地定位病變區域的位置,保證相對清晰和完整的病變區域的邊界形狀,較好地克服該數據集的分割挑戰.
(a)輸入圖像 (b)真實標簽 (c)U-Net (d)UNet++ (e)PraNet (f)TIAN
(g)SANet (h)CGRNet (i)TSD-BA (j)AAU-Net (k)PVT-CASCADE (l)ESG-TNet
(a)輸入圖像 (b)真實標簽 (c)U-Net (d)UNet++ (e)PraNet (f)TIAN
(a)輸入圖像 (b)真實標簽 (c)U-Net (d)UNet++ (e)PraNet (f)TIAN
(g)SANet (h)CGRNet (i)TSD-BA (j)AAU-Net (k)PVT-CASCADE (l)ESG-TNet
總之:從定量的角度出發,ESG-TNet在各評價指標上都有顯著改善;從可視化的角度出發,ESG-TNet不僅可實現病變區域的準確識別,還可較好地保證病變區域邊界的相對完整.這都得益于ESG-TNet中的3個模塊:1)MFFM結合高層次特征,初步實現較好的目標定位;2)ESGM利用底層特征豐富的邊界信息,經過選擇和圖推理,保證較好的邊界形狀;3)PGRM逐層細化,進一步完善粗分割的結構信息和細節信息,得到最終較完美的分割結果.
為了驗證ESG-TNet中3個模塊的有效性,建立如下不同的組合模型進行消融實驗.
1)模型1.移除ESG-TNet中所有模塊,僅有ESG-
TNet的主干網絡.
2)模型2.移除ESG-TNet中ESGM和PGRM,即在模型1的基礎上加入MFFM.
3)模型3.移除ESG-TNet中的PGRM, 即在模型2的基礎上加入ESGM.
4)ESG-TNet.在模型3的基礎上加入PGRM.
具體消融實驗結果如圖8所示.從圖可看出,在3個數據集上,模型2中所有指標值均優于模型1.這表明MFFM對分割性能的提升有一定的作用.在模型2的基礎上,模型3的DSC、IoU和召回率指標均實現較大提升,特別是在CVC-ColonDB數據集上,DSC、IoU和召回率指標都增長超過3%,這表明ESGM能促進有效的分割.相比模型3,ESG-TNet中所有指標均實現顯著的提升,特別是在DSC指標上提升超過4%,在IoU和召回率指標上提升超過6%,這表明PGRM可極大提升分割性能.
綜上所述,在3個數據集上,MFFM、ESGM和PGRM都起到積極作用,有利于提升醫學圖像分割的性能.
(a)DSC (b)IoU
(c)精確度 (d)召回率
本節在CVC-ClinicDB數據集上討論初始目標邊緣選擇中的閾值組合和損失函數中超參數的選擇.記τ1,τ2和τ3分別表示用于設置較低、適中和較高的閾值組合,本文經驗性選擇3種組合進行實驗,具體指標值如表4所示,表中黑體數字表示最優值.
由表4可見,當τ1=0.3,τ2=0.5,τ3=0.7時,分割性能最優,因此,本文選擇τ1=0.3,τ2=0.5,τ3=0.7進行實驗.類似地,在另兩個數據集上也經驗性地選取τ1=0.3,τ2=0.5,τ3=0.7進行實驗.
表4 不同的閾值組合選取對ESG-TNet性能的影響
本文還進一步討論普通單一閾值法和無初始目標邊緣選擇對ESG-TNet性能的影響,具體指標值對比如表5和表6所示,表中黑體數字表示最優值.
從表5可看出,相比普通的單一閾值法,ESG-TNet具有較好的性能提升.同時,從表6可看出,初始目標邊緣選擇有助于后續整體算法性能提升.
表5 ESG-TNet與單一閾值法在CVC-ClinicDB數據集上的性能對比
表6 有無初始目標邊緣選擇對ESG-TNet性能的影響
此外,損失函數中超參數γ和η用于調整像素比例.本文經驗性地選擇γ=1,2,3,4,5,6和η=0.5,1,1.5,2,2.5,3,在CVC-ClinicDB數據集上進行實驗.具體指標值如圖9所示.
(a)DSC (b)IoU
(c)精確度 (d)召回率
由圖9可見,當γ=4和η=1.5時,ESG-TNet分割效果最優.因此,本文選擇γ=4和η=1.5.類似地,在另兩個數據集也經驗性選取γ=4和η=1.5進行實驗.
本文提出基于邊緣選擇圖推理的三路徑網絡(ESG-TNet),該網絡分別用于目標定位、邊緣選擇和細節細化.具體地:多尺度特征融合模塊聚合高層次特征,實現目標定位;邊緣選擇圖推理模塊精準選擇突出的目標邊緣特征,進行圖推理;漸進式組級細化模塊用于細化結構信息和細節信息.此外,本文引入融合加權Focal Tversky損失和加權交并比損失的復合損失,減輕類不平衡的影響.在3個類不平衡的公共數據集上的一系列實驗表明,ESG-TNet實現較優的分割性能.但是,ESG-TNet還存在可繼續探索的空間,如可嘗試利用元學習策略進行超參數的自適應選擇,今后可考慮在這些方面展開研究.