?

基于半監督多頭網絡的腰椎CT圖像分割

2023-06-23 10:09何越杜欽紅杜鈺堃楊環西永明

何越 杜欽紅 杜鈺堃 楊環 西永明

摘要:針對醫學圖像分割任務中醫學數據標注困難以及CT圖像強度不均勻問題,提出一種基于半監督的多頭分割網絡SSMH-Net。SSMH-Net網絡采用教師—學生訓練架構,基于相同的分割模型V-Net,通過指數移動平均算法完成教師與學生模型的交互訓練;采用Multi-Head方法估計模型預測的不確定性信息,指導分割模型在更可靠的目標中學習。在CTspine分割數據集上,SSMH-Net網絡平均分割Dice系數達到95.70%,表現出較為優異的分割性能。

關鍵詞:椎體分割;半監督學習;注意力模塊;V-Net;multi-head

中圖分類號:TP391.41

文獻標志碼:A

文章編號:1006-1037(2023)02-0036-07

doi:10.3969/j.issn.1006-1037.2023.02.07

基金項目:

山東省泰山學者項目(批準號:ts20190985)資助。

通信作者:楊環,女,博士,副教授,主要研究方向為圖像/視頻處理與分析、視覺感知建模及質量評估、深度學習等。

腰痛是一種常見的脊柱外科疾病,影響約70%~80%的成年人。腰椎病變,如腰椎滑脫、腰椎間盤突出、椎體畸形等,是引起腰痛的主要原因,已成為重大的社會公共衛生問題。計算機斷層掃描(Computed Tomography, CT)影像能清楚地顯示腰骶椎和周圍結構,被廣泛應用于腰椎疾病的診斷和治療。三維CT圖像腰椎分割是后續臨床治療的必要前提。目前,外科醫生通常采用手工分割CT圖像的方法,不僅費時費力,而且不同的標注軟件導致分割結果差異。面對腰部疾病的多樣化以及發病率高等問題,通過醫生手動分割椎體圖像的方法已無法滿足當下的診療需求。因此,開發一種CT影像自動定位和分割腰椎部位的智能方法,對于脊柱疾病的計算機輔助診斷和治療至關重要。近年來,在醫學圖像計算機輔助診斷中,用于腦腫瘤,肺結節等醫學圖像的自動分割取得了重大進展[1-6]。3D DSN[1]采用端到端的三維全卷積架構,在網絡中引入深度監督并采用條件隨機場實現輪廓優化;RIMNet[2]利用Region-to-image匹配策略,提高了多模態MRI數據之間的利用率。通過小批量隨機禁用模態,將多模態數據輸入到模型中,提取的特征通過級聯進行融合;2D-SCNet[4]是一種基于CNN的同時分割分類的模型,其中特征提取層由分割網絡和分類網絡共享。異常椎體和正常椎體在形狀和結構上的差異很大,大部分通用的圖像分割算法無法實現準確的分割。為了提高椎體分割的精度,構建了許多基于級聯結構的模型。Sekuboyina 等[7]提出一種多階段腰椎分割算法,使用多層感知器提取腰椎的感興趣區域,然后在感興趣區域內進行實例分割。迭代椎骨實例分割算法利用移動滑動窗口使其包括完整的椎骨區域,然后對椎骨使用實例分割并保存[8]。盡管這些方法都依賴卷積神經網絡來分割椎體,但依舊保留檢測和分割任務,且使用兩個網絡。Li等[9]提出一種用于脊椎分割的卷積神經網絡,在網絡中加入通道注意模塊和雙重注意模塊,使用多尺度卷積塊提高網絡的預測能力。這些方法在分割椎體部位取得了較好的效果,但是忽略了CT圖像中一些軟組織和椎體區域灰度類似,因此可能存在錯誤的將軟組織區域分割出來的情況。監督式深度學習常依賴大量用于訓練的標記數據集,對于3D醫學圖像,獲取大量體素級標記數據耗時長且困難。因此,半監督深度學習被廣泛應用于醫學圖像分割,這種方法只需獲得少量標記圖像和大量未標記圖像,并能同時用于網絡訓練,基于自訓練的Inf-Net[10]網絡利用隱式反向注意和顯式邊緣關注來提高病變區域的檢測;DAN[11]和BUS-GAN[12]使用對抗生成網絡,使未標記圖像的分割與標記圖像的分割相似。一致性正則化在計算機視覺和圖像處理中起著至關重要的作用,尤其是在半監督學習中。DTC[13]是一種新的雙任務一致性半監督框架,用聯合預測目標的像素分割圖和水平集函數表示,該模型強制像素級分類任務和水平集回歸任務之間的任務一致性,可以更好的捕捉幾何活動輪廓和距離信息。然而現有的半監督模型未考慮CT影像中邊界模糊和強度分布不均勻的情況,導致無法準確的分割椎體的邊緣區域和椎體內部區域,并且未標注數據沒有標注指導訓練,導致模型訓練過程中可能對預測結果產生過度自信,使模型的分割結果較差。本文提出基于不確定性估計的半監督多頭分割網絡(Semi-Supervised Multi-Head Segmentation Network,SSMH-Net),SSMH-Net模型由兩個相同的分割網絡分別作為學生和教師網絡,通過在分割網絡中跳躍連接處加入注意力來關注椎體內部特征。監督學習模型在訓練過程中經常對預測分割結果產生過度自信,因此使用Multi-Head方法估計模型的不確定性,同時設計一致性損失函數,用來最小化學生模型和教師模型在不同擾動下對輸入的預測差異。

1 不確定性估計引導的半監督多頭分割網絡

1.1 半監督學習網絡模型

為了充分利用未標注的CT圖像分割腰椎,SSMH-Net網絡采用經典的教師—學生框架,通過預測結果的不確定性信息來指導網絡的訓練過程。如圖1所示,模型包含一個教師網絡和一個學生網絡,兩個網絡共享SC-VNet模型結構。SC-VNet采用V-Net網絡作為基礎網絡,并在跳躍連接處加入SC注意力模塊。教師網絡的權重通過使用學生網絡權重的指數移動平均(EMA)更新提高模型的穩定性和魯棒性。對于標記的3D CT圖像,經過學生網絡進行監督學習分割,由監督損失Ldice+Lce組合優化,得到預測結果predA。對于未標記的3D CT圖像,期望在不同噪聲的擾動下學生網絡和教師網絡的分割結果(即predA和predB)是一致的。為了提升學生模型的學習能力,采用Multi-Head算法[14]計算師生模型的輸出一致性,學生網絡通過Ldice+Lce(監督損失)和Lcon(無監督一致性損失)的組合進行優化,有效地指導學生網絡從教師網絡中學習更可靠地目標。

1.2 融合SC注意力的學生模型和教師模型

CT圖像中往往存在強度分布不均勻的情況,導致椎體內部模糊,邊界不清晰,造成椎體分割精度較低。針對上述問題,本文構建了監督學習模型SC-VNet。在V-Net模型的基礎上,添加空間及通道(Spatial and Channel,SC)注意力模塊關注椎體內部特征,通過增強通道特征和融合3D空間信息提高分割的準確率。SC模塊主要結構如圖2所示,圖中X(大小為C×H×W×D)作為注意力模塊的輸入特征信息,SC注意力模塊由通道注意力模塊和空間注意力模塊組成[15]。通道注意力模塊是利用特征的通道間關系來生成通道注意力圖,采用全局平均池化Favg(·)壓縮輸入特征圖的空間維度,使用兩個全連接層實現權重值在不同的通道中的流動,并通過非線性激活函數(Sigmod)σ1將權重限制到0~1之間。將學習到的通道權重重構為Mc(大小為C×1×1×1),與注意力模塊的輸入X使用點乘運算得到Xcha。為了充分使用3D空間信息,利用特征的空間關系生成空間注意力。首先輸入圖像X采用一個大小為1×1×1的3D卷積Fcon(·)進行降維操作。經過非線性激活函數(Sigmod) σ2激活后,將得到的空間權重Ms(大小為1×H×W×D)與注意力模塊的輸入X使用點乘運算得到Xspa。Xcha,Xspa和X通過相加生成3D通道和空間注意力圖X′。

在半監督學習框架中教師模型和學生模型之間的權重通過指數移動平均(EMA)共享[16]。指數移動平均(EMA)是每次梯度更新之后的權值和上一次的權值采用加權平均,而不是每個Epoch之后再進行信息聚合。EMA改變的是分割網絡中所有層的輸出,而不僅僅是其中某一層的輸出,因此EMA可以得到更好的中間表示。EMA權重的更新公式為

其中,t是訓練次數;θ′t是教師模型的權重;θt是學生模型的權重;α為 EMA的衰減率,用來控制網絡更新速度。與直接使用學生網絡的最后參數相比,使用EMA權重通常會產生更準確的網絡模型。

1.3 多頭輸出的不確定性估計算法Multi-Head

由于CT圖像椎體內部和外部高度相似性,預測分割結果中容易產生假陰性和假陽性區域。若將沒有標注的圖像輸入到教師網絡,得到的目標預測可能是不可信的,因此SSMH-Net模型采用Multi-Head的方法,指導學生網絡從更可靠的目標中學習。為方便計算模型的不確定性,將監督分割網絡的單個輸出層擴展成M個輸出層。簡單的說,Multi-Head有M個類型相同的輸出層(1,2,…,M),但每個輸出層都具有不同的權重和初始化,因此每個輸出層產生的預測也是不相同的。使用加權損失促進輸出層之間的多樣性,可以更好地覆蓋CT圖像的內部和外部區域,有利于捕獲推理時的歧義。對于輸入圖像的每個體素,可以得到一組概率向量。因為預測熵具有固定的范圍,可以作為不確定性的度量。在不確定性估計的指導下,設置一個閾值,過濾掉相對不可靠的預測,選擇可靠的預測作為學生模型學習的目標

其中,pnumt表示第num類在第t次的輸出的概率,mi是M個預測的平均值,num是類別數,不確定性u大小為H×W×D,是預測的體素熵。

1.4 損失函數組合優化

為充分利用3D空間信息,模型使用3D影像作為兩個分割網絡的輸入,其中訓練集是由U個標記數據和V個未標記數據組成。標記集為Dl={xi,yi}Ui=1,將未標記的數據集為Du={xi}U+Vi=U+1,其中xi是大小為H×W×D的輸入影像,yi∈{0,1}H×W×D是真實標注。

對于有標注的圖像,學生網絡主要受監督損失的指導,以學習分割任務的可靠表示。模型采用Dice損失Ldice和交叉熵損失Lce的組合作為監督損失Lsup來分割腰椎

其中,δm(a)=1-ε, if a=trueεM-1, else,a代表M個輸出層中預測損失最少的輸出層;ε為設置的權重;m為多個輸出層。

對于沒有標注的圖像,可以根據半監督學習中的平滑假設,將輸入圖像加上不同的噪聲生成兩個圖像,通過學生和教師網絡得到對應的分割掩碼在理論上是相同的,因此模型可以通過最小化一致性損失建立學生模型預測結果predA和教師模型預測結果predB的約束

其中,I(·)為指標函數,閾值在0~1之間;predA和predB分別是學生模型和教師模型在第v個體素上的預測;uv是第v個體素處的不確定性估計;value是選擇可靠目標的閾值。通過在訓練過程中的一致性損失,學生和教師模型都可以從中學習到更可靠的知識,降低模型的不確定性。

2 實驗結果和分析

2.1 數據集和預處理

評估模型所使用的CTspine數據集由36個3D CT成像掃描組成,圖像尺寸從512×512×350到512×512×512(體素)不等,每一個3D圖像都有一個與圖像相同大小的腰椎分割掩碼。預處理使用[-700, 1300]HU的軟組織CT窗口范圍,基于隨機擴大邊緣(10~20個體素)的分割掩碼裁剪腰椎區域為中心的圖像,并將所有圖像進行零均值歸一化和單位方差處理。實驗將36次掃描分為30次掃描用于訓練和6次掃描用于測試。

2.2 實驗設置

實驗均采用Pytorch開源框架,使用的顯卡型號為NVIDIA A100 GPU;模型采用SGD優化器進行訓練,共6 000次迭代,EMA衰減率為0.99;批量大小為2,每次由1個標記圖像和1個未標記圖像組成;初始學習率設置為0.01,每經過2 500次迭代除以10;將原始圖像隨機裁剪為128×128×96作為網絡模型的輸入,并使用滑動窗口策略獲得最終的分割結果;SSMH-Net將多頭輸出M設置為4。

2.3 實驗結果

為了評估半監督框架中學生網絡和教師網絡所使用的完全監督分割網絡的準確性,將所提出的半監督框架使用不同的學生和教師網絡在3D椎體數據集上訓練和測試,包括SV-Net、V-Net[17]、U-Net[18]和Highresnet[19]4種網絡。在30次訓練掃描中,使用20%的數據(即6次掃描)作為標注數據,其余24次掃描作為未標注數據。其他所使用的實驗參數設置完全一致。實驗結果見表1,SSMH-Net模型中使用不同的學生和教師網絡的分割精度對比,學生和教師網絡使用加入SC注意力的V-Net網絡在半監督框架中取得95.70%的分割精度,優于其他對比模型。

為了驗證SSMH-Net模型的有效性,將SSMH-Net模型與其他半監督分割模型進行比較,包括SASSnet[20]、DTC[13]、MC-Net[21]和SCC[22]。實驗時,所有模型都采用20%的標記數據和80%的未標記數據,結果見表2,可知, SSMH-Net模型分割精度較高。由于SSMH-Net僅僅在監督網絡SC-VNet的輸出層上進行了擴展,相比較其他半監督分割模型,在計算量少的前提下依然獲得較好的分割效果。

圖3為DTC、SASSnet、MC-Net、SCC和SSMH-Net模型的分割可視化結果,其他模型在多個椎體連接部分產生粘連,特別是SASS-Net。SSMH-Net模型在沒有任何形狀約束下,依然得到更好的分割結果,具有更少的孤立區域,并且有效地分割一些具有挑戰性的區域,見圖3中標記部分,說明SSMH-Net模型優于其他網絡。

為了驗證SSMH-Net模型的魯棒性,在2018年心房分割挑戰賽的基準數據集(LA)上評估該性能。數據集包括100個用于訓練的MR成像掃描,各向同性分辨率為0.625×0.625×0.625 mm。模型使用80個樣本用于訓練,其余20個樣本用于測試,SSMH-Net模型與其他方法在同一驗證集上的比較結果見表3??芍?,SSMH-Net模型在大部分評價指標上優于其他模型。

使用兩種比較流行的半監督設置(10%和20%的標注數據)觀察所提SSMH-Net模型的數據利用情況,評估結果見表4??梢钥闯?,同樣使用10%的標注數據,SSMH-Net模型利用90%的未標注數據比SC-VNet模型分割所得到的Dice結果高5.82%;在20%的標記數據中,SSMH-Net比SC-VNet的 Dice結果高3.67%,表明SSMH-Net模型能更加有效地利用未標記數據來提升模型的分割性能。V-Net和U-Net監督模型使用全部標注數據分割精度分別為96.48%和96.18%,僅僅比使用少量標注數據的SSMH-Net高0.78%和0.48%,表明SSMH-Net在臨床應用中有更廣闊的潛力。

3 結論

本文提出一種應用于腰椎CT分割領域的SSMH-Net模型,采用基于不確定性估計的半監督深度學習框架,通過對相同輸入的圖像加入不同的擾動,以達到學生和教師模型分割一致性的目的,最終實現在較少標注數據的同時提高分割精度的效果。SSMH-Net模型采用了Multi-Head方法,通過探索每個目標的不確定性信息計算一致性損失,以此提高分割目標的質量。在標注規模相同的數據集下,與主流分割模型相比,SSMH-Net模型表現出較為優異的分割效果,能夠減輕醫學圖像數據標注,在分割精度上具有較大的臨床價值。

參考文獻

[1]QI D, HAO C, YUE M J, et al. 3D deeply supervised network for automatic liver segmentation from CT volumes[C]//International Conference on Medical Image Computing and Computer-assisted Intervention. Springer, 2016: 149-157.

[2]DAS P, PAL C, ACHARYYA A, et al. Deep neural network for automated simultaneous intervertebral disc (IVDs) identification and segmentation of multi-modal MR images[J]. Computer Methods and Programs in Biomedicine, 2021, 205: 106074.

[3]DOLZ J, DESROSIERS C, BEN AYED I. IVD-Net: Intervertebral disc localization and segmentation in MRI with a multi-modal UNet[C]//International Workshop and Challenge on Computational Methods and Clinical Applications for Spine Imaging. Springer, 2018: 130-143.

[4]GONG Z, KAN L. Segmentation and classification of renal tumors based on convolutional neural network[J]. Journal of Radiation Research and Applied Sciences, 2021, 14(1): 412-422.

[5]CUI S G, MAO L, JIANG J F, et al. Automatic semantic segmentation of brain gliomas from MRI images using a deep cascaded neural network[J]. Journal of Healthcare Engineering, 2018, 2018.

[6]ZHU W T, LIU C C, FAN W, et al. Deeplung: Deep 3d dual path nets for automated pulmonary nodule detection and classification[C]//2018 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2018: 673-681.

[7]SEKUBOYINA A, VALENTINITSCH A, KIRSCHKE J S, et al. A localisation-segmentation approach for multi-label annotation of lumbar vertebrae using deep nets[DB/OL]. [2022-08-20]. https://arxiv.org/abs/1703.04347.

[8]LESSMANN N, VAN GINNEKEN B, DE JONG P A, et al. Iterative fully convolutional neural networks for automatic vertebra segmentation and identification[J]. Medical Image Analysis, 2019, 53: 142-155.

[9]LI B, LIU C, WU S Y, et al. Verte-Box: A novel convolutional neural network for fully automatic segmentation of vertebrae in CT image[J]. Tomography, 2022, 8(1): 45-58.

[10] FAN D P, ZHOU T, JI G P, et al. Inf-net: Automatic covid-19 lung infection segmentation from CT images[J]. IEEE Transactions on Medical Imaging, 2020, 39(8): 2626-2637.

[11] ZHANG Y, YANG L, CHEN J, et al. Deep adversarial networks for biomedical image segmentation utilizing unannotated images[C]// International Conference on Medical Image Computing and Computer-assisted Intervention. Springer, 2017: 408-416.

[12] HAN L Y, HUANG Y Z, DOU H R, et al. Semi-supervised segmentation of lesion from breast ultrasound images with attentional generative adversarial network[J]. Computer Methods and Programs in Biomedicine, 2020, 189: 105275.

[13] LUO X D, CHEN J N, SONG T, et al. Semi-supervised medical image segmentation through dual-task consistency[C]// 35th AAAI Conference on Artificial Intelligence. 2021: 8801-8809.

[14] RUPPRECHT C, LAINA I, DIPIETRO R, et al. Learning in an uncertain world: Representing ambiguity through multiple hypotheses[C]// 30th IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, 2017: 3591-3600.

[15] CHEN L, ZHANG H W, XIAO J, et al. Sca-cnn: Spatial and channel-wise attention in convolutional networks for image captioning[C]// 30th IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, 2017: 5659-5667.

[16] TARVANINEN A, VALPOLA H. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results[C]// 31st Annual Conference on Neural Information Processing Systems (NIPS). Long Beach, 2017.

[17] MILLETARI F, NAVAB N, AHMADI S A. V-net: Fully convolutional neural networks for volumetric medical image segmentation[C]// 4th IEEE International Conference on 3D Vision (3DV). Stanford, 2016: 565-571.

[18] ICEK , ABDULKADIR A, LIENKAMP S.S, et al. 3D U-Net: learning dense volumetric segmentation from sparse annotation[C]// International Conference on Medical Image Computing and Computer-assisted Intervention. Springer, 2016: 424-432.

[19] YANG G S, MANELA J, HAPPOLD M, et al. Hierarchical deep stereo matching on high-resolution images[C]// 32th IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). 2019: 5515-5524.

[20] LI S L, ZHANG C Y, HE X M. Shape-aware semi-supervised 3D semantic segmentation for medical images[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, 2020: 552-561.

[21] WU Y C, XU M F, GE Z Y, et al. Semi-supervised left atrium segmentation with mutual consistency training[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, 2021: 297-306.

[22] LIU Y S, WANG W, LUO G N, et al. A contrastive consistency semi-supervised left atrium segmentation model[J]. Computerized Medical Imaging and Graphics, 2022, 99: 102092.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合