?

面向低劑量CT的牙齒分割網絡

2024-03-20 10:32秦俊盧婷嵐紀柏李雨晴
中國圖象圖形學報 2024年3期
關鍵詞:牙齒注意力損失

秦俊,盧婷嵐,紀柏,李雨晴

1.長春理工大學計算機科學技術學院,長春 130000;2.吉林大學白求恩第一醫院,長春 130000

0 引言

隨著計算機技術和現代口腔醫學相互滲透融合,口腔數字化技術的高速發展正推動著口腔醫學的進步。由計算機斷層掃描(computed tomography,CT)演化而來的錐形束CT(cone beam computed tomography,CBCT)實現了人體頭部及口腔的三維成像,使口腔醫學得以進一步精準化和數字化。相比常用于其他人體部位的CT 照射方式,CBCT 照射具有成像速度快、輻射劑量低等優點,可以對不耐輻射人群使用,并且針對口腔這一靠近人體大腦部位進行低劑量CT照射,可以降低對人體輻射傷害。并且針對阻生牙、畸形牙、齲齒、缺牙以及牙列不齊等常見口腔疾病,需要以患者牙齒結構為參考,根據CBCT的結果,醫生可以對患者的不同問題采用不同的治療辦法。

但是由于CBCT 放射量低,參與成像的放射物質較少,所以成像清晰度相對于常劑量CT略低。并且牙齒本身形狀復雜,在進行牙齒分割時容易導致分割邊界模糊、牙齒根部錯誤分割的問題,故而通過圖像處理算法對低劑量CT進一步處理,方便醫生更快速地獲取清晰的口腔CT。臨床上,牙齒分割一般由有經驗的醫生對患者口腔CBCT 數據的牙冠和牙根區域進行手動定位和勾畫,這一過程不僅耗時,而且非常依賴醫生的解剖學知識和臨床經驗,分割結果受主觀因素影響較大。如今,人工處理圖像已不能滿足臨床需求,因此建立一種自動化程度相對較高且準確的牙齒分割方法已成當務之急,牙齒自動分割既可以減輕醫生的工作量,又可以提高診斷率和手術的治愈率。然而,從CBCT 圖像中自動分割牙齒仍然是一個具有挑戰性的問題,因為牙齒在拓撲結構上表現出很大的變化。例如,磨牙可能在牙根處分裂成2個或3個結構。除了一般規則外,還存在磨牙只有1個牙根和3個以上牙根的特殊情況,這些情況在現實生活中相當常見(Xu等,2022)。

目前已有很多關于牙齒分割的算法相繼提出,但其中大多數是基于水平集(Zhang,2011;Gao 和Chae,2010;Gan 等,2015)或區域生長算法(Ji 等,2014;Gan 等,2018;Xia 等,2017)。這些方法通常需要強大的先驗知識和優秀的初始化,但即使這樣也不能從這些區域的背景組織中正確分割牙齒。

隨著人工智能的發展和應用,卷積神經網絡在圖像處理領域嶄露頭角,出現了許多成功案例,這為牙齒分割任務帶來了新的研究方向?;诰矸e神經網絡的圖像分割算法大量涌現并取得了優秀的性能,其中全卷積網絡(fully convolutional network,FCN)(Long 等,2015)和U-Net 及其變體網絡(Li 等,2021;周濤 等,2021)在醫學圖像分割中表現尤為突出。率先使用深度學習方法對CBCT 圖像中的牙齒進行分割的團隊(Cui 等,2019)使用3D Mask RCNN作為基本網絡,實現了對口腔CBCT 圖像中牙齒的自動分割和分類。Wirtz 等人(2018)結合梯度圖像特征與關于牙齒形狀變化的空間關系的統計知識進行牙齒分割,該方法取得了一定的效果,但該模型無法分割智齒。Chung 等人(2020)提出了一個姿勢感知實例分割框架,用于分割口腔CBCT 圖像中的單顆牙齒。Zhao 等人(2020)提出使用長短時記憶網絡來分割口腔CBCT 圖像中的牙齒。Koch 等人(2019)將基于U-Net 架構的全卷積神經網絡應用于牙齒分割任務,利用一般性的分割技巧獲得了不錯的分割效果。盡管目前已經提出了一些自動方法來提高牙齒分割的準確性,但由于CBCT 圖像本身的低對比度和牙齒的形狀輪廓復雜,這些方法對智齒和牙根區域的分割效果并不盡如人意,都存在信息丟失的問題。

在本文中提出了一種基于多尺度特征提取模塊(multi scale feature extraction module,MFEB)和CA(coordinate attention)的自動牙齒分割方法。具體來說,MFEB 通過擴大感受野來使網絡捕獲全局和局部特征,并且采用了目前在提升網絡性能方面表現優秀的CA 注意力機制。該注意力機制可以更好地捕捉局部和全局上下文信息,更準確地定位和識別感興趣的對象,這有助于提高分割的準確性。在損失函數方面,本文從像素、局部和整體3 個方向優化牙齒邊緣的分割效果,提高了分割算法的準確性和魯棒性。實驗結果表明,該網絡模型明顯優于目前多數主流分割網絡的效果,這表明了設計的方法對牙齒分割的有效性,對口腔醫學的診斷和治療有重要意義。

1 相關工作

1.1 數據集預處理

數據集采用Dicom 格式存儲,為了后續方便傳入網絡等操作,本文將 CBCT 數據由 16 bit 映射到8 bit。由于 CBCT 采用的是錐形束投照,掃描到的視野范圍比較廣,所以得到的數據通常包括頜骨等多種信息,牙齒在其中僅占很小部分。給分割工作帶來很大的困難?;诖?,對 CBCT 圖像進行了裁剪,去除圖像中的無用區域,使牙齒的特征更加明顯,便于輸入網絡進行特征提取。裁剪后圖像尺寸為 960 × 720像素。

由于輻射劑量的限制,CBCT圖像會存在圖像質量差、噪聲增加的問題。為了不影響牙齒分割的準確性,對裁剪后的圖像進行去噪處理,為牙齒分割工作打下良好的基礎。

1.2 數據標記

深度學習算法通常需要依賴于精確標注的數據集。然而,目前并沒有可供研究和應用的口腔CBCT 標注數據集。因此,需要對收集到的口腔數據進行手動標記,創建帶有標簽的圖像數據集,以便進行后續的網絡訓練和測試。

牙齒分割的數據集包括預處理后的 CBCT 圖像和與其對應的標簽圖像。其中標簽圖像是手工標注后生成的一種與原始圖像尺寸相同的二值圖像。標簽圖像中,牙齒區域被標注為前景,而其他組織區域被標注為背景。如圖1所示為分割數據集示例。

圖1 分割數據集示例Fig.1 Examples of segmented dataset((a)pre-processed CBCT image;(b)labeled image)

2 牙齒分割框架

2.1 網絡模型

牙齒分割模型MF-CA Net 的整體架構如圖2 所示。首先使用預訓練的ResNet50(residual network 50)(He 等,2016)作為編碼器,從輸入圖像中提取4 個不同的特征圖。然后,特征圖中的每一個都需要通過一系列3 × 3 卷積層、批量歸一化和ReLU(linear rectification function)激活函數后送入MFEB模塊,MFEB的詳細結構如圖3所示。使用該模塊旨在嘗試減少當牙齒拓撲高度變化且牙齒邊緣模糊時出現的錯誤分割。MFEB 使用不同尺寸的卷積核分別對輸入特征圖進行處理,從而提取牙齒CBCT 圖像的多種特征,增強網絡在提取圖像特征信息方面的魯棒性,從而使網絡能夠捕捉更多細節并優化突出牙齒圖像的重要特征,最終優化分割效果。

圖2 MF-CA Net模型結構圖Fig.2 Structure of MF-CA Net model

圖3 多尺度特征提取模塊結構圖Fig.3 Structure of multi-scale feature extraction module

解碼器部分首先對特征圖進行雙線性上采樣,將輸入特征圖的高度和寬度增加兩倍(朱翌和李秀,2023)。將上采樣的特征圖與另一個MFEB 的輸出連接起來,這樣可以使解碼器獲取到更多的語義信息,增加了它的特征表示。通過兩個殘差塊,其中每個殘差塊由一個卷積塊和一個連接卷積塊的輸入和輸出的恒等映射組成。卷積塊以兩個3 × 3 卷積層開始,每個卷積層后都有一個批量歸一化和一個ReLU 激活函數。將第1 個殘差塊的輸出傳遞給雙線性上采樣層,以將其空間維度增加兩倍。之后是3 × 3 卷積層、批量歸一化和ReLU 激活函數。然后將ReLU 激活函數的輸出與第2 個殘差塊的輸出連接起來。再通過一個雙線性上采樣層,其中連接的特征圖被上采樣兩倍,然后是一個3 × 3 卷積層、批量歸一化和ReLU 激活函數。然后將ReLU 激活函數的輸出與第3 個殘差塊的輸出連接起來。最后,特征圖再次進行上采樣并通過3 × 3卷積層、批量歸一化和ReLU 激活函數。然后將特征圖通過CA 注意力模塊,它可以增強網絡的特征的表達能力,幫助網絡選擇有效的特征并抑制不相關特征的影響,從而提高特征表示及其魯棒性。

2.2 多尺度特征提取模塊

提出的MFEB 的詳細結構如圖3 所示。對于輸入的特征圖首先使用4 個卷積核大小不同的卷積(1 × 1,3 × 3,7 × 7,11 × 11),卷積核的大小不同,對輸入圖像數據做出的卷積運算也不同。換言之,所提取出來的圖像特征信息也不同。多尺度卷積核可以有效避免在卷積核設置上對整體網絡模型提取圖像特征信息能力的限制,增強了網絡提取圖像特征信息的魯棒性,使網絡能夠學習更強大的表示。

然后再用4個擴張率分別為1、3、7、11的擴張卷積進一步增大感受野。不同的感受野會帶來多尺度上下文信息,使網絡能夠捕捉到更多的細節,并提煉出重要的特征,這對于分割任務是非常重要的。每個卷積層之后是批量歸一化和ReLU 激活函數。之后,對這些特征進行連接,并將它們傳入1 × 1卷積,然后是殘差連接。最后,生成的特征圖通過CA注意機制進一步突出特征。

2.3 CA模塊

已經證明注意力機制能夠在各種計算機視覺任務中發揮重要作用,包括圖像分類和圖像分割。通道注意力是當前備受關注的技術之一,它可以顯著提高模型的性能,但是通常情況下會忽略位置信息。而在計算機視覺任務中,位置信息通常至關重要。因此,研究人員引入了一種創新的注意力機制,稱為CA。CA 注意力機制通過計算輸入特征圖中的空間和通道注意力權重,自適應地調整特征圖的權重分布,以更好地捕捉局部結構和全局上下文信息。更重要的是,CA 注意力機制將位置信息與通道注意力相結合,從而有助于網絡更準確地定位和識別感興趣的對象。CA 注意力模塊的結構如圖4所示。

圖4 CA注意力模塊結構圖Fig.4 Structure of CA attention module

通道注意力機制通常采用二維全局池化操作,將特征張量壓縮為單個特征向量。然而,CA 注意力采用了一種不同的方法,將通道注意力分解為兩個一維特征編碼過程,分別沿兩個空間方向整合特征信息。這個設計允許網絡更好地捕捉到視覺任務中關鍵的空間位置之間的遠程依賴關系。CA 注意力模塊的目標是增強移動網絡的特征表達能力,它可以對網絡中的任何中間特征張量進行變換,而輸出的張量尺寸保持不變。

CA 注意力模塊以一種獨特的方式獲取圖像寬度和高度上的關注,并對精確的位置信息進行編碼。首先將輸入特征圖分成兩個方向:寬度和高度,并對它們分別進行全局平均池化。這樣,就會得到在寬度和高度方向上的兩個特征圖,相應的計算為

將獲得的兩個方向上的特征圖拼接在一起,隨后將它們送入共享的卷積核為1 × 1的卷積模塊,將其維度降低為原來的C/r,接著將經過批量歸一化處理的特征圖F1送入sigmoid 激活函數中得到形如1 ×(W+H) ×C/r的特征圖f,具體為

式中,[·]表示沿空間維度的級聯操作,δ(·)是非線性激活函數。

接下來,將特征圖f按照原來的高度和寬度送入1 × 1 的卷積。分別得到通道數與原來相同的特征圖Fh和Fw。然后,將這兩個新特征圖分別送入sigmoid 激活函數,以獲得特征圖在高度上的注意力權重gh和在寬度方向的注意力權重gw,具體為

最后,在原始特征圖上通過乘法加權計算,得到最終在寬度和高度方向上帶有注意力權重的特征圖,具體為

該模塊在MF-CA Net 模型和MFEB 的結構中均有使用,目的是可以更好地捕捉和傳遞多尺度的牙齒特征。

2.4 聯合損失函數

考慮到人類視覺系統對邊緣信息的感知特性,網絡利用結構相似性構造邊界損失函數,以增強模型降低邊界差異的能力。設計的聯合損失函數從像素、局部和整體3 個方向優化牙齒邊緣的分割效果。使用Dice 損失函數、二元交叉熵損失函數和SSIM(structural similarity)損失函數的聯合來作為最終損失函數。Dice 損失是一種整體水平的損失函數,將真實分割結果與預測分割結果看做兩個集合A和B,從而計算兩個集合的相似度。具體為

交叉熵損失是一種像素級別的損失,依次計算預測的分割結果和真實分割結果的相應像素位置。具體為

式中,N表示像素總數,yi表示像素i的預測,yi*表示像素i的真實標簽。

人類視覺系統可以很容易地從場景中提取結構特征,而結構相似性(structural similarity,SSIM)往往意味著目標邊緣的信息。SSIM(Wang等,2003)最初是為圖像質量評估而提出的,它能在一幅圖像中捕捉到結構信息。因此,將其作為損失函數的一部分,以學習標記圖像的結構信息,計算方法為

式中,uX和uY分別是X和Y的均值和分別是X和Y的方差,σXY表示X和Y的協方差C1=0.001,C2=0.001,這是為了避免分母為0。

SSIM 損失是一個局部級別的損失函數,與像素級別和整體級別的損失函數不同,它能從不同的尺度(分辨率)看待像素的鄰域差異,可以讓網絡更注重圖像的結構和邊緣等信息,從而得到更優的分割結果。

鑒于上述3 種損失各自的不同關注點,本文利用它們來聯合優化網絡性能,可以綜合考慮多個方面的性能指標,從而更好地優化分割模型。計算方式為

通過多次實驗結果對比,將參數設置為α1=0.5,α2=0.3,α3=0.2。這樣的參數設置具有最好的分割效果。

3 實驗結果及分析

3.1 實驗環境設置

實驗在 Ubuntu64 位操作系統的 DGX Station 上運行,具體硬件信息如表1所示。提出的MF-CA Net網絡是基于Python3和 Pytorch 庫進行構建的。模型更新部分使用初始學習率為 1 × 10-4的Adam 優化器來訓練網絡。網絡的訓練數據批大小設置為2,訓練迭代次數為 50 epoch。

表1 配置環境Table 1 Configuration environment

3.2 數據集及評價指標

在醫院口腔科收集的20 例CBCT 掃描中,廣泛評估了所提出的框架。首先在CBCT 圖像上手動裁剪牙齒區域,將其尺寸調整為960 × 720 像素。牙科醫生對CBCT圖像數據中的牙齒部分進行逐幀手動標記,從而獲得分割標簽。實驗使用訓練數據5 000幅,測試集1 000幅。

圖像分割的評價指標能直接表明分割模型的性能。為了更準確地評估提出模型在牙齒分割任務上的性能,本文使用了Dice、平均交并比(mean intersection-over-union,mIoU)、精度(accuracy)、召回率(recall)、準確性(precision)、F2 分數作為評價指標。

Dice相似系數計算的是真實標簽和預測結果之間的相似度。若醫學影像的真實標簽用A表示,分割模型的預測結果用B表示,則Dice 相似系數的表達式為

式中,TP為真正例,表示在真實標簽中為真,在預測結果中也為真。FP為假正例,表示在真實標簽中為假,在預測結果中為真。FN為假負例,表示在真實標簽中為假,在預測結果中為假。TN為真負例,表示在真實標簽中為真,在預測結果中為假。Dice 相似系數的取值范圍為[0,1],分割結果越接近真實標簽,則Dice相似系數的值越接近1。

在分割任務中,交并比計算真實標注與分割結果之間的交并比,其表達式為

平均交并比是基于交并比的一種分割度量標準,計算每個類別計算出的交并比求和之后取平均值,其表達式為

式中,k為類別數,對于醫學影像中的二值分割來說,只有屬于分割標注和不屬于分割標注兩個區域,所以類別數k=2。

F2 分數是準確率和召回率的調和數,其表達式為

3.3 對比實驗

對提出的方法和幾種主流的基于深度學習的圖像分割方法進行了一系列的對比實驗,并對實驗結果做了詳細的數據分析。對比組的模型分別是U-Net(Ronneberger 等,2015)、Res-UNet(Zhang 等,2018)、UNet++(Zhou 等,2018)、DenseASPP、DeeplabV3+(Chen 等,2018)和PyConvU-Net(Li 等,2021),這6 個網絡模型在醫學圖像分割領域都有出色表現。為了公平地比較這些模型的分割性能,所有模型都使用ResNet50作為主干特征提取網絡,并在同一個測試數據集上統計了性能指標,其中定量結果如表2 所示,從表中可以看出,與其他醫學圖像分割方法相比,本文方法取得了領先的分割性能,在Dice 評價指標上達到了0.949 5 的高分數,對比PyConvU-Net 和DeeplabV3+提高了約4%,對比U-Net 提高了約16%。各評價指標都是在多次實驗后取平均值,雖然本文模型在accuracy指標上與DeeplabV3+相比略低,但其余5 個指標上都優于DeeplabV3+,因此依然可以證明所提方法的有效性。

圖5 展示了本文方法和對比方法的一些典型分割結果示例。從圖中可以看出,本文方法與其他醫學分割方法相比更接近真實標簽圖像的分割結果,尤其是牙根部分的分割結果形狀準確,邊緣結構清晰。觀察結果發現,只有本文方法可以將智齒準確地分割出來,其他算法對智齒的分割效果很差,甚至未能分割出智齒。其中DeeplabV3+方法在分割時容易在牙齒內部出現空洞和單獨的黑點,推測可能是其為了提高分割速度而引入的深度可分離卷積,導致網絡不能有效地利用不同通道在相同空間位置上的特征信息。在拓撲結構變化較大的牙根區域,其他對比算法出現了明顯的“欠分割”現象,即網絡錯誤地預測背景像素和牙齒像素的類別,導致牙根不能被正確分割。相比之下,本文方法在分割過程中輕松緩解了“欠分割”問題,表現出很高的魯棒性。

3.4 消融實驗

為了驗證提出方法的有效性,設計了消融實驗,并將消融實驗分為兩個部分:網絡模塊消融實驗和損失函數消融實驗。網絡模塊消融實驗討論了MFEB模塊與CA 注意力機制的有效性,其中“MFEB{1}”表示多尺度特征提取模塊只有卷積核大小為1,并且擴張率也為1 的分支,“MFEB{4}”表示多尺度特征提取模塊有4 個分支,其中卷積擴張率分別為1,3,7,11?!癓BCE”表示單獨使用二元交叉熵損失,“LBD”表示同時使用二元交叉熵損失和Dice 損失作為網絡的最終損失函數,“LBDS”表示聯合使用BCE 損失、Dice 損失和結構相似性損失作為最終損失函數,即上文提出的聯合損失函數。此外,還將目前深度學習中表現優異的CBAM(convolutional block attention module)注意力機制加入到網絡中與使用CA 注意力機制進行了對比,探討它們各自對網絡性能的提升效果。損失函數消融實驗中分別討論了單獨使用與聯合使用各個損失函數對網絡分割結果的影響,表3和表4為消融研究的結果。

表3 網絡模塊消融實驗結果Table 3 Experimental results of network module ablation

表4 損失函數消融實驗結果Table 4 Experimental results of loss function ablation

從表3 可以看出,本文方法在各項評價指標上均優于其他實驗模塊設置的相應指標,其中MFEB的加入使Dice得分從0.739 3上升到0.901 1。圖6 中對分割結果示例進行了展示,可以看出,MFEB 和CA 注意力模塊的加入,對網絡的分割性能產生了巨大的提升,牙齒邊緣分割結果準確而清晰。

圖6 不同模塊設置下的網絡模型的分割結果Fig.6 Segmentation results of the network model with different module settings((a)CBCT image;(b)ground truth;(c)MFEM{1}+LBDS;(d)MFEM{4}+LBDS;(e)MFEM{4}+CBAM+LBDS;(f)ours)

從表4 可以明顯看出,提出的聯合損失函數效果優于單獨使用各個損失函數。相比單獨使用二元交叉熵損失,聯合損失函數使評價指標Dice 得分提高了8.31%;結構相似性損失的加入使得網絡的各項性能指標均有所提高,其中Dice 得分升高了近5%。

4 結論

本文提出了一種名為MF-CA Net 的牙齒分割網絡模型,該模型采用多尺度特征提取模塊、CA 注意力機制和聯合損失函數,以提高牙齒分割的魯棒性和準確性,并且該模型有效解決了由于CBCT 圖像對比度低且牙齒輪廓復雜而導致的牙齒分割困難的問題,實現了對牙齒的精確分割,為醫生的診斷和治療計劃提供了有力的支持。

通過多次實驗發現,MFEB 和CA 注意力機制的添加可以有效地提取口腔CBCT 圖像中的多尺度牙齒特征,對分割效果的提升起到了重要的作用。使用ResNet50 作為模型的編碼器,可以預訓練權重,幫助模型更快地收斂到牙齒分割任務,實現高精度的牙齒分割結果。并且即使是擴大數據集,也可以保持高質量的分割性能。

最后本文在數據集上進行了大量的牙齒分割實驗,最終在多個指標上都實現了超出目前多數主流分割網絡的效果,表明了所提方法的有效性。

但是本文沒有考慮牙齒之間的相互關系和約束,例如牙齒的位置、角度等,這可能會導致分割結果不自然或不準確。在后續研究中,將引入牙齒之間的相互關系和約束,以提高分割結果的自然性和準確性,例如使用空間關系或圖模型來約束牙齒的位置和角度。此外,提出的方法是基于全監督的圖像分割,然而標注數據集十分煩瑣且困難,并且標注結果十分依賴于標注者的經驗。相對而言,弱監督學習不需要完整的訓練標簽就能夠獲得較為準確的分割結果,因此后續研究將嘗試弱監督方法應用到牙齒分割工作中。使模型可以面對更加復雜的情況,達到更好的分割效果。

猜你喜歡
牙齒注意力損失
讓注意力“飛”回來
胖胖損失了多少元
玉米抽穗前倒伏怎么辦?怎么減少損失?
可憐的牙齒
“揚眼”APP:讓注意力“變現”
如何保護牙齒?
A Beautiful Way Of Looking At Things
一般自由碰撞的最大動能損失
愛護牙齒要注意的事
損失
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合