?

融合殘差上下文編碼和路徑增強的視杯視盤分割

2024-03-20 10:31梅華威尚虹霖蘇攀劉艷平
中國圖象圖形學報 2024年3期
關鍵詞:視盤像素卷積

梅華威,尚虹霖,蘇攀,劉艷平

1.華北電力大學控制與計算機工程學院,保定 071003;2.復雜能源系統智能計算教育部工程研究中心,保定 071003;3.河北省能源電力知識計算重點實驗室,保定 071000

0 引言

眼睛是人體重要的視覺器官,也是最容易產生疾病的器官之一。青光眼是全球第二大致盲原因,它的早期診斷非常重要。臨床上,除基于功能的視野檢測和眼壓測量外,另一種主要青光眼篩查技術是基于眼底圖像的視盤(optic disc,OD)又稱視神經乳頭(optic nerve head,ONH)和視杯(optic cup,OC)(視盤的中心部位)評估,為一種早期發現青光眼的便捷方法,需要醫生手動定位視盤和視杯的區域和邊界。通過觀察視杯區域增大情況,判斷是否存在青光眼。青光眼判別的評價指標包括盤直徑(optic disc diameter,ODD)、杯盤比(cup disc ratio,CDR)與盤沿(rim),通常認為杯盤比是視盤和視杯區域最具代表性的青光眼檢測指標之一,臨床上通常認為CDR 大于0.65 的眼睛為青光眼(Akram 等,2015),且杯盤比越大,患有青光眼的概率越高。

對于視盤和視杯的分割與CDR 的確定,通常需要醫生手動計算,該過程存在較強的主觀性,不確定性高且耗時昂貴。因此,亟需一種自動評估方法高效精準地進行視盤分割,提高效率和質量。

計算機輔助視盤和視杯分割大致分為傳統方法和基于深度學習的方法。傳統的分割方法包括基于形狀和模板匹配的方法、基于活動輪廓模型的方法以及超像素的方法。在大多數基于模板的算法中,通常把視盤近似為橢圓,因此采用霍夫變換的方法,例如Aquino 等人(2010)利用橢圓霍夫變換獲得視盤邊界近似結果。Cheng 等人(2013)通過消除來自非視杯盤結構周圍萎縮的邊緣濾波,約束橢圓霍夫變換使分割更準確;在基于活動輪廓的方法中,Lowell 等人(2004)首先使用基于圖像梯度的變形輪廓模型進行視盤輪廓檢測,趙曉芳等人(2011)也將不同類型的活動輪廓模型應用于視盤和視杯的分割;此外,Xu 等人(2012)提出了一種基于視網膜先驗結構的超像素學習框架,并通過局部上下文信息對分割結果進行微調。值得注意的是,傳統的分割方法通常容易受到噪聲的影響,當目標與背景灰度值有重疊時,分割效果不佳。

隨著卷積神經網絡在圖像以及視頻處理中的發展,深度學習網絡也逐漸廣泛應用于醫學圖像處理中。端到端全卷積網絡(fully convolutional network,FCN)(Long 等,2015)和U-Net(Ronneberger 等,2015)的出現開辟了分割任務的新時代。Fu 等人(2018a)提出M-Net(multi-label deep network),在U-Net基礎上增加了極坐標預處理與多尺度輸入,并增加額外的損失函數使得網絡能夠得到更多的監督信息,但是沒有充分考慮像素與像素之間的關系。Al-Bander 等人(2018)和Tabassum 等人(2020)采用對稱的U 形架構允許像素級分類。Yu 等人(2019)使用改進的U-Net 架構,采用魯棒分割方法實現視盤和視杯區域的精確分割。Gu 等人(2019)提出了context encoder network(CE-Net),通過引入密集空洞卷積模塊去捕獲更廣泛和更深層次的語義特征,殘差多路徑池化模塊可以防止梯度消失,保留更多的空間信息。Fu 等人(2018b)和Murugesan 等人(2019)通過考慮視盤和視杯中不同層次與模塊間的相互關系,更好地捕捉邊界信息,但是這類方法沒有充分利用視杯在視盤內且二者近似橢圓的先驗知識。Jiang 等人(2020)將圖像分割問題轉換為目標檢測問題,通過剪裁視盤的相應區域來指導視杯分割。Surendiran等人(2022)改進遞歸神經網絡,構造片內和片間上下文的特征映射來提取細節信息,進行視盤和視杯聯合分割。

近年來,注意力機制廣泛應用在計算機視覺領域中,它可以區分不同局部信息的重要程度,忽略無關信息,更適合應用在醫學圖像分割任務中。劉洪普等人(2021)通過聚合全局上下文信息,采用注意力指導模塊增強有用特征并抑制無用特征響應。Zhang 等人(2019)提出了一種注意力引導網絡保存結構信息并指導擴展操作,在部分公共數據集下提高了視盤和視杯分割的精度。為了提高模型的泛化性,Zhu 等人(2021)采用不同數據集下的混合訓練策略,通過引入權重共享注意力和密集連接的深度可分離卷積,將多尺度特征充分融合。Mou 等人(2021)提出一種基于雙自注意模塊的曲線結構分割網絡,能夠更有效地從背景中分類曲線結構,學習視盤和視杯豐富的層次信息。

本 文提出RCPA-Net(residual context path augmentation U-Net)算法對視盤和視杯進行分割,具體步驟如下:首先提取視盤周圍感興趣區域(region of interest,ROI);再將感興趣區域作為RCPA-Net 分割網絡模型的輸入,分別分割視盤與視杯,將傳統的聯合三類別分割轉換為兩個二類別分割;最后將分割得到的視盤和視杯區域融合為一幅圖像,實現可視化操作。

雖然深度學習卷積網絡已經在視盤和視杯分割方面取得了不錯的成果,但是在精度上仍然存在很大的提升空間。U-Net 網絡及其變體模型在提取特征時會產生粗糙的分段,具有大量不連續線段。同時,目前主流的分割網絡都是針對某一特定數據集,通常在同類任務的其他數據集中分割效果不好,模型泛化能力差。此外,在訓練過程中使用交叉熵損失函數會給圖像帶來類別不平衡的問題,導致背景像素干擾視盤和視杯的分割。

為了解決上述問題,本文主要做出以下幾點貢獻:1)提出并實現一個端到端的深度學習網絡RCPA-Net,使用預訓練ResNet34(residual neural network)模型與注意力機制融合作為特征提取網絡,采用統一架構實現了視盤和視杯的精準分割,提高了分割精度;2)提出殘差空洞卷積模塊(residual atrous convolution,RAC)和路徑增強模塊(path augmentation module,PAM),即能夠多尺度提取上下文語義信息,同時獲取精確的邊界定位信息,增強整個特征層次;3)提出一種新型多標簽損失函數,提高視杯盤與背景區域的像素比例,指導網絡進行分割。

1 相關工作

1.1 殘差模塊

傳統卷積神經網絡具有多尺度表示信息的能力,往往通過增加卷積層數量來提取圖像中更豐富的細節。ResNet(He 等,2016)為神經網絡引入了殘差單元,防止因網絡過深導致梯度爆炸或者梯度消失,同時獲得更深入的網絡結構,大幅提升網絡性能。

本文中殘差單元結構如圖1 所示,F(X)表示殘差路徑。恒等連接路徑X與跨卷積的數據通路在沒有引入額外計算量與參數量的情況下相加,得到最終結果。

圖1 殘差單元結構圖Fig.1 The structure of residual block

1.2 空洞卷積

空洞卷積(atrous convolution)最初用于促進更加高效的小波變換計算。數學上,空洞卷積在二維信號下表示為

式中,x[i]表示輸入特征圖,ω[k]表示卷積核中第k個參數,y[i]表示輸出特征圖。r表示空洞卷積參數空洞率(dilation rate),對應于輸入信號進行采樣的步幅??斩淳矸e在沒有引入額外參數的情況下,通過設置不同的參數空洞率自適應修改感受野的大小??斩淳矸e通過調整卷積擴大感受野來捕獲多尺度上下文信息。一方面隨著感受野的增大,網絡可以檢測大目標物體;另一方面空洞卷積可以精確控制由分割網絡計算出的特征圖分辨率,通過提高分辨率促進目標的精確定位。

1.3 注意力機制

SE-Net(squeeze-and-excitation network)(Hu 等,2018)核心思想是在全連接網絡中根據loss 自動學習特征權重,而非根據特征通道的數值分配判斷。在實際訓練中,SE-Net 中的降維處理操作會對通道注意力機制的預測產生負面影響,ECA-Net(efficient channel attention)(Wang 等,2020)對SE-Net 進行了改進,在避免降維問題的同時,有效捕獲跨通道的特征交互。

如圖2 所示,ECA 模塊輸入為X,維度為H×W×C(H,W,C分別表示輸入特征圖的高、寬及通道數)。首先對X沿著維度H×W進行全局平均池化操作,輸出的特征描述符維度為1 × 1 ×C;其次再經過全局平均池化,通過一個一維卷積(1D)進行學習,卷積核的大小由函數自適應變化,使得通道數較大的層可以更多地進行跨通道交互;最后執行sigmoid 激活函數將值固定到0~1 之間來學習通道注意力。

圖2 ECA模塊結構圖Fig.2 The structure of ECA block

ECA 模塊通過卷積核大小為k的1D 卷積有效實現,本文采用自適應函數確定k,避免了交叉驗證對k進行調試。自適應函數為

式中,C為通道數,γ和b為非線性函數中的參量,|t|odd表示t向上舍入后最接近的奇數。通過映射函數ψ,高維通道具有更長范圍的相互作用,而低維通道通過使用非線性映射進行更短范圍的相互作用。ECA 模塊有效捕獲了跨通道的交互,避免維度縮減問題的產生,同時,ECA 模塊模型復雜度低,只需少量參數就能達到很好的效果。

2 實驗模型

2.1 數據預處理

針對眼底圖像通常存在光照不均和視網膜血管干擾等問題,本文增強了每幅圖像目標和背景區域的對比度,再進行限制對比度自適應直方圖均衡化(contrast limited adaptive histogram equalization,CLAHE)(Zuiderveld,1994)和顏色歸一化處理,增強對比度的同時有效抑制噪聲。最后將增強圖像與原始圖像組合后取平均,構成一幅新的三通道圖像,豐富圖像信息的同時防止數據不平衡,讓模型學習目標分割物體更多的特征信息。圖3(a)中的圖像經過CLAHE處理后的結果如圖3(b)所示,視盤和視杯區域更加明顯。

圖3 CLAHE處理圖像結果Fig.3 Result of CLAHE processing image((a)original image;(b)image processed by CLAHE)

2.2 RCPA-Net網絡模型

本文提出的RCPA-Net 網絡模型主要包括3 個部分:特征編碼模塊(feature encoder module,FEM)、殘差空洞卷積模塊(residual atrous convolution,RAC)和路徑增強模塊(path augmentation module,PAM),RCPA-Net網絡整體結構如圖4所示。

圖4 RCPA-NetFig.4 RCPA-Net

2.2.1 特征編碼模塊

視盤和視杯分割是一項基于像素分類的密集預測任務,本文使用預訓練ResNet34 模型與ECA 模塊融合作為特征提取網絡,通過跨通道信息獲取來增強圖像特征提取的能力。

改進后的ResNet34 保留原始7 × 7 卷積以及前4 個特征提取塊,刪去平均池化層和全連接層。如圖5 所示,輸入圖像首先通過7 × 7 卷積以及最大池化層直接降采樣,最大限度地保留原始圖像信息的同時,穩定通道數。

圖5 Conv 7 × 7+MaxPoolFig.5 Conv 7 × 7+MaxPool

特征提取塊由兩個3 × 3 卷積層、批標準化(batch normalization,BN)以及ReLU 激活函數組成,如圖6所示。

圖6 殘差模塊Fig.6 Residual block

本文使用經過預訓練ResNet 的改進U-Net 作為骨干網絡,在每一層殘差塊后添加ECA 模塊,保留視盤和視杯的空間信息細節。ECA 模塊中1D 卷積的卷積核大小會影響通道注意力機制每個權重的計算以及通道數量,從而改變跨通道交互的覆蓋率,這直接影響視盤和視杯特征信息的提取。

本文在所有實驗中分別將γ和b設為2 和1,根據通道維數的非線性映射自適應地計算卷積核大小,輸入和輸出的維度均為1 × 1 ×C。本文中編碼器的構造通過學習每個卷積塊的通道注意力,增加了信息獲取的能力。

2.2.2 殘差空洞卷積模塊

在深度學習中,Inception(Szegedy等,2017)系列網絡通過增加網絡寬度來提高網絡性能,ResNet 通過恒等連接路徑在不改變網絡性能的基礎上減少參數量與計算量,同時有效抑制了梯度消失與梯度爆炸。受兩種網絡的啟發,本文提出了殘差空洞卷積模塊(RAC)來獲取更深層的特征信息。

RAC 模塊用來提取上下文更高層的語義特征信息,如圖7 所示。模塊中使用空洞卷積代替傳統卷積,在參數量不變的情況下,增大感受野。RAC模塊有4 個連級分支,卷積塊個數分別為2、2、4 和5,隨著卷積層個數的增加,每個分支的感受野在逐漸增大,分別為3、7、19和33。結合不同的參數空洞率可以產生不同大小的感受野,提取更加詳細的特征。在RAC 模塊中,采用全局平均池化,將特征圖中所有像素值相加求平均得到特征向量,特征層更容易被轉化為分類概率,避免了過擬合。同時采用空間可分離卷積,使用7 × 1 和1 × 7 兩個串聯卷積模塊代替一個7 × 7模塊,保證感受野的同時減少了網絡參數并增加非線性和模型的表達能力。在每個分支后增加1 × 1卷積調整線性激勵與維數,減少參數與運算量,提升運算效率。最后將4 個分支的輸出結果與輸入圖像融合,得到預測結果。

圖7 殘差空洞卷積模塊Fig.7 Residual atrous convolution module

與Inception 系列網絡在網絡結構上相比,RAC模塊僅有4條聯級分支且每條分支的模塊數量更少,使得模型更簡潔,同時也保證了結構的稀疏性;其次,在結構內部使用多個3 × 3 空洞卷積來代替普通卷積,在進一步增加網絡深度的同時穩定了參數量;最后,RAC模塊每條分支的感受野逐步增大,通過組合不同空洞率的卷積,實現了高級語義信息與淺層全局信息的融合,更易提取不同尺寸的目標特征。

2.2.3 路徑增強模塊

特征解碼模塊恢復了特征編碼模塊與上下文特征提取模塊得到的深層語義特征。為了彌補連續的池化與卷積操作造成的信息損失,采用跳躍連接的方式,直接從編碼器到解碼器獲得對應圖像維度的信息。解碼模塊采用轉置卷積,放大圖像并自適應學習特征映射,恢復圖像更高分辨率的信息。特征解碼模塊如圖8 所示,主要包括兩個1 × 1 卷積層以及一個3 × 3轉置卷積層?;谔S連接和4次上采樣解碼操作,特征解碼器輸出與原始輸入大小相同的圖像。

圖8 解碼模塊Fig.8 Decoder block

在網絡結構中,淺層特征包含精確的視盤和視杯邊界信息,對圖像分割有很大幫助。但從淺層特征到深層特征的路徑較長,獲取準確的定位信息難度較大。針對上述問題,受到PANet(path aggregation network)的啟發(Liu 等,2018),本文提出自上而下的路徑增強模塊(PAM)。PAM 利用淺層特征圖存在的精確定位信息,縮短信息路徑,增強特征信息。與之前的研究(Fu 等,2018a)不同,PAM 模塊不僅利用了淺層特征,并且通過傳播淺層特征增強了整體功能層次結構與定位能力。

PAM 模塊如圖9 所示,RCPA-Net 中定義相同空間大小的特征圖在同一階段,如用{F1,F2,F3,F4}表示特征解碼模塊生成的特征圖,擴充路徑從最淺層F1 開始,以步幅2 進行下采樣操作,逐漸接近F4。使用{N2,N3,N4 }來表示新生成的特征映射,對應于{F2,F3,F4 }。每個PAM 模塊由高分辨率特征圖Ni以及深層特征圖Fi+1通過橫向連接拼接后生成新特征圖。Ni首先經過一個3 × 3 卷積與ReLU 激活函數,再與Fi+1進行拼接操作。融合后的特征圖經過另一個3 × 3卷積處理,同時通道數降至128,生成后續網絡的Ni+1特征圖,再經過不斷迭代,保證輸出每個特征圖Ni的通道數恒為128,優化模型的同時減少參數與計算量。此外,本文構建了一條從淺層到深層的橫向連接路徑(圖4 中綠色虛線)類似于跳躍連接,通過傳播淺層特征的精確信息,進一步增強整個特征層次結構的定位能力。

圖9 路徑增強模塊Fig.9 Path augmentation module

2.2.4 側輸出層

RCPA-Net 引入了側輸出層,與M-Net 類似,采用4 個特征層。作為早期分類器,為淺層特征提供局部輸出特征映射。4 個特征層權重參數共享,通道數均為2,輸出與輸入圖像分辨率均為512 × 512像素,融合相加后作為最終的預測結果。

側輸出層能夠將損失函數反向傳播到對應解碼器的淺層卷積網絡中,幫助淺層卷積訓練并防止出現梯度消失的問題,且淺層特征信息更容易傳播,加快訓練速度。同時,融合多尺度信息促進了特征信息的高性能融合,側輸出層對不同尺度的結果進行監督,以便輸出更好的分割圖像。

2.3 損失函數

視盤和視杯分割本質上是像素分類的問題,最常見的損失函數是交叉熵損失函數(cross entropy loss function)。但是,視盤在眼底圖像中占比非常小,視杯是在視盤中心的杯狀明亮區域,邊界輪廓不明顯,尤其對于青光眼患者的眼底圖像來說,前景與背景區域像素比例十分不平衡,交叉熵損失函數往往得不到最優的解決辦法。針對上述問題,本文提出一種基于Dice 系數(Milletari 等,2016)與Focal Loss(Lin 等,2017)的損失函數。Dice 系數是一種集合相似度度量函數,廣泛應用于對分割結果的評估,其計算為

式中,N表示像素點數量,p(k,i)∈[0,1]表示像素預測為k類的概率,g(k,i)∈{0,1}表示像素屬于k類的真實標簽值。K代表分類數,包括前景(視盤或視杯)與背景兩類,ωk表示每個類的權重,本文中設置ωk=1/K,即0.5,ε為常值系數,取0.9。而Focal Loss損失函數主要解決前景與背景樣本之間不平衡的問題,具體為

式中,p表示模型預測為目標區域的概率,y取1時代表前景目標區域,取-1 時代表背景。當Pt增大時,樣本分配得越均衡,loss 值越小,Pt趨向于1 時,樣本更容易區分。αt與γ均為常值系數,用于調節前景與背景樣本之間損失的比例,分別取0.5與2。

在視盤和視杯分割任務中,目標分割區域只占很小的面積,Dice系數不受前景大小的影響,可以很好地處理前景與背景像素數量不均衡的情況,常應用于較小目標區域的挖掘任務中。

此外,Focal Loss 在訓練過程中可以使模型更聚焦于目標區域,有助于從背景中提取清晰的視盤和視杯邊界信息。

綜上,本文采用由Dice Loss與Focal Loss組成的LLoss作為總損失函數,其定義為

代價敏感損失函數可以加快梯度的反向傳播,促進更新權重矩陣,提高目標區域與背景區域的像素比例,更有效地解決訓練過程中像素分布不平衡的問題。

3 實驗結果分析

3.1 實驗設置

本文實驗的主要步驟如下:1)數據采集與數據預處理;2)通過訓練迭代測試調整參數以保證分割網絡性能最優,即在每個訓練周期后進行結果驗證,保存最佳的訓練模型;3)測試保存的最佳模型并進行結果預測;4)模型評估與結果分析。

實驗部分基于Python以及Pytorch深度網絡學習框架實現,采用NVIDIA GeForce GTX3090 GPU(24 GB)來加速網絡訓練。訓練階段使用Adam優化器對模型進行優化,每次選取的樣本數量為8,權重衰減為0.000 1。Adam集成了一階動量與二階動量,收斂速度很快,通常能獲得更好的性能。初始學習率為1E-4,訓練過程中根據選取樣本的數量大小自適應調整學習率,動量為0.9。輸入圖像均調整為512 ×512 像素,訓練周期為150。在輸出預測結果時,選擇視盤和視杯中最大連通區域,產生最后的分割結果。

由于眼底數據集圖像數量較少,因此,在實驗中對每幅圖像進行隨機水平、垂直以及對角翻轉,從而進行數據擴充,將每幅圖像增加至8 幅。之后對圖像進行50%—200%的隨機縮放并進行長和寬的扭曲以及HSV(hue,saturation,value)顏色空間抖動。

3.2 數據集

本次實驗使用4 個公開的眼底視盤和視杯分割數據集,包括ORIGA(online retinal fundus image database for glaucoma analysis)(Zhang 等,2010)、Drishti-GS1(Sivaswamy 等,2015)、Refuge(retinal fundus glaucoma challenge)(Orlando 等,2020)以及RIMONE(retinal image database for optic nerve evaluation)-R1(Fumero等,2011)數據集。

ORIGA 數據集由650 幅3 072 × 2 048 像素的彩色眼底圖像構成,其中包含168 幅青光眼病例圖像以及482幅正常眼底圖像,將650幅眼底圖像分為兩組數據集,A組包括325幅訓練樣本,B組包括325幅測試樣本。為了根據原始分辨率分割彩色眼底圖像視盤和視杯區域,按照Wang等人(2019)的方法在最亮的點周圍裁剪了800 × 800像素的區域。

Drishti-GS1 數據集由101 幅視網膜眼底圖像組成,其中包含31 幅正常圖像以及70 幅患病圖像。Drishti-GS1 數據集標簽是由4 位眼科專家醫生手動標注,并將4 組金標準取平均后得到標簽集合。實驗中,將101 幅眼底圖像分為兩組數據集,A 組包括50幅訓練樣本,B組包括51幅測試樣本。

Refuge 數據集包含訓練集、測試集和驗證集3 部分,本文選取測試部分400 幅由Zeiss 眼底相機拍攝的彩色眼底圖像,分辨率為2 124 × 2 056 像素。同樣也分為兩組數據集,A 組包括320 幅訓練樣本,B組包括80幅測試樣本。

RIM-ONE-R1數據集包含169幅眼底彩照,該組標簽僅提供了5 名眼科專家逐像素標注的不同視盤結果。為了模型的測試與訓練,實驗中將169 幅圖像分為A組訓練集101幅以及B組測試集68幅。

3.3 評價指標

為了評估視盤和視杯分割的性能,本文采用JC(Jaccard)指數和F-measure 作為視盤和視杯分割的評估指標。

JC的計算式為

式中,JC表示預測結果與標簽結果的重疊率,JC指數值介于0 到1 之間,越接近0,表示視盤或視杯重疊的面積越大,分割效果越精準。

F-measure的計算式為

式中,Rec(recall)為召回率,Pre(precision)為精度。Rec與Pre的計算式分別為

式中,TP(true positive)、TN(true negative)、FP(false positive)、FN(false negative)分別為目標區域的真陽性、真陰性、假陽性、假陰性像素數量。

為了評估視盤和視杯邊界的分割精度,在ORIGA 數據集使用平均絕對值誤差(mean absolute error,MAE)與豪斯多夫距離(Hausdorff distance,HD)來衡量預測結果與標簽之間的差異。

評價指標MAE 表示所有預測結果與標簽之間絕對誤差的平均值,計算式為

式中,y與y’分別代表預測像素與標簽像素,n為像素數量。

豪斯多夫距離(HD)在圖像分割任務中應用廣泛,主要用來評估預測結果的邊界分割性能。計算式為

式中,A、B分別代表預測結果集合與標簽集合,sup表示計算一個集合最小的上界,inf 表示計算一個集合最大的下界。

3.4 實驗結果及分析

3.4.1 網絡模塊間消融實驗

本文在以下4 個方面進行消融研究:1)基本模塊;2)模塊位置;3)預訓練權重;4)損失函數。所有消融研究都遵循相同的實施方案。

首先,為了驗證所采用模塊的性能,在ORIGA數據集與Drishti-GS1 數據集上驗證本文提出的4 個模塊(限制對比度自適應直方圖均衡CLAHE、ECA模塊、殘差空洞卷積模塊RAC 以及路徑增強模塊PAM)的有效性?;A網絡(baseline)僅采用經過預訓練ResNet34 的改進U-Net 網絡,不包含上述模塊。實驗結果如表1所示,baseline 在ORIGA 數據集上分割視盤的JC與Fmeasure指標分別為0.929 4與0.963 4,視杯分割分別為0.769 2 與0.869 5;在Drishti-GS1數據集上視盤分割分別為0.935 5 與0.966 7,視杯分割分別為0.812 3 與0.896 4。在baseline 的基礎上分別使用上述4 個模塊,模型分割性能都有明顯的提升,體現了各個模塊的有效性。此外,再將性能提升較為明顯的ECA、RAC 以及PAM 模塊分別組合進行訓練,結果表明,當4 個模塊組合使用時分割精度提升最多,在視盤分割中ORIGA 數據集上JC與Fmeasure比baseline 分別提高了1.04%與0.54%;在Drishti-GS1 數據集上分別提高了1.69%與0.86%。同時,4 個模塊組合在視杯分割相比baseline 也有不小的提升,在ORIGA 上JC與Fmeasure比baseline 分別提高了3.33%與1.84%;在Drishti-GS1 上分別提高了6.28%與3.37%。

表1 不同模塊對模型精度的消融實驗對比Table 1 Comparison of ablation experiments with different modules on our algorithm accuracy

ECA 模塊可以加到特征編碼器的任何一個位置,不同位置對模型分割性能的影響也不同,針對不同數據集測試的位置如圖10所示。其中,L0表示不加ECA 模塊;L1 表示在第1 個7 × 7 卷積后;L2 表示在全部特征編碼器模塊后(不包括第1 個7 × 7 卷積);L3表示在最后一層特征編碼器模塊后;L4表示在全部特征解碼器模塊后。

圖10 ECA模塊的不同位置Fig.10 Different locations of ECA module

為了驗證ECA 模塊不同位置對模型分割精度的影響,本文在ORIGA 數據集與Drishti-GS1 數據集上分別對ECA 模塊的位置進行對比實驗,實驗結果如表2 所示??梢钥闯?,當ECA 模塊在L2 位置時,分割模型性能達到最優,在ORIGA 數據集上視盤分割結果相比不加ECA 模塊,JC與Fmeasure分別提高了0.58%與0.29%;視杯分割結果分別提高了2.73%與1.50%。在Drishti-GS1數據集上視盤分割結果分別提高了1.27%與0.65%;視杯分割結果分別提高了3.10%與1.66%。在L1 位置時,相比于不加入ECA模塊,視盤和視杯分割精度反而下降,這可能是因為在第1 個卷積后,淺層特征圖感受野較小,只能覆蓋小目標,無法實現對于整體視盤或視杯的精準分割?;趯嶒灁祿Y果,本文模型將ECA 模塊放在L2位置上,即在全部特征編碼器模塊后。

表2 ECA模塊位置對分割精度的影響Table 2 Influence of ECA module position on segmentation accuracy

為了驗證不同特征提取網絡等因素對于分割精度的影響,在ORIGA 和Drishti-GS1 數據集上做了對比實驗,結果如表3 所示。相比不經過預訓練,加載預訓練權重明顯提升了模型的分割精度,防止由于網絡參數過多造成過擬合的現象。此外,不同預訓練權重對于網絡模型的性能也有明顯差異,ResNet34 作為特征提取網絡得到的預測結果好于ResNet18,在ORIGA 上加載ResNet34 預訓練權重相比不加載預訓練權重,視盤分割的JC與Fmeasure分別提高了7.13% 與3.67%;視杯分割分別提高了6.58%與3.69%;在Drishti-GS1 上視盤分割分別提高了8.60%與4.39%;視杯分割分別提高了19.37%與10.39%。因此,本文采用ResNet34 作為預訓練骨干模型,加強特征信息提取的同時促進視盤和視杯分割精度的提升。

表3 不同因素對分割精度的影響Table 3 Influence of different factors on segmentation accuracy

最后,為了驗證模型中損失函數的有效性,將損失函數中的Dice 系數與Focal Loss 分別在ORIGA 數據集上進行對比實驗。實驗結果如表4 所示,相比于將兩個損失函數結合起來,單個損失函數進行訓練分割結果精度較低,組合使用后性能提高更明顯,更適合應用在視盤和視杯分割任務中。

表4 不同損失函數在ORIGA數據集對分割精度的影響Table 4 Influence of different loss functions on the segmentation accuracy on ORIGA dataset

3.4.2 與其他方法對比實驗

為了驗證RCPA-Net 網絡模型在視盤和視杯分割任務上的泛化性與有效性,與已有的多種方法在4 個數據集上分別比較,包括與U-Net、M-Net 和CENet等其他主流醫學圖像分割網絡進行對比實驗,訓練過程中每組數據預處理權重參數均統一。首先,在ORIGA 數據集上對比,實驗結果如表5 所示。通過評價指標的計算可以看出,RCPA-Net領先于目前的主流視盤視杯分割算法,視盤分割的JC與Fmeasure分別為0.939 1與0.968 6。相比于U-Net算法,分別提高了6.11%與3.38%;視杯分割的JC與Fmeasure分別為0.794 8 與0.885 5,比U-Net 算法分別提高了10.37% 與5.77%;比CE-Net 算法分別提高了2.19%與1.21%。在ORIGA中,RCPA-Net在兩個指標中均達到了最優,說明了網絡的有效性。

表5 不同方法在ORIGA數據集的分割結果比較Table 5 Segmentation comparison results of different methods on ORIGA dataset

在Drishti-GS1數據集上進行實驗得到的結果如表6 所示??梢钥闯?,RCPA-Net 分割視盤的JC與Fmeasure分別為0.951 3與0.975 0,相比于U-Net,分別提高了6.88%與0.93%;相比CE-Net,JC提高了2.04%;相比最近提出的CS2-Net,JC提高了1.79%。RCPA-Net 分割視杯的JC與Fmeasure分別為0.863 3 與0.926 6,比U-Net 分別提高了23.36%與12.53 %,比CPFNet 提高了5.69%與4.23%,比CE-Net 提高了3.23%與1.72%。

表6 不同方法在Drishti-GS1數據集的分割結果比較Table 6 Segmentation comparison results of different methods on Drishti-GS1 dataset

從表7 可以得到,在Refuge 數據集上,分割視盤的JC與Fmeasure分別為0.929 8 與0.963 6,相比于U-Net 分別提高了6.26%與2.77%;相比CS2-Net 分別提高了0.89%與0.50%,相比CE-Net,JC提高了0.43%。RCPA-Net 分割視杯的JC與Fmeasure分別為0.828 8 與0.906 3,比U-Net 分別提高了4.47%與2.43%;比CS2-Net 提高了5.66%與3.60%,比CENet提高了3.54%與1.92%。RCPA-Net得到預測結果的評價指標均優于其他對比算法,在視盤和視杯分割任務中展現了更高的分割精度。

表7 不同方法在Refuge數據集的分割結果比較Table 7 Segmentation comparison results of different methods on Refuge dataset

RIM-ONE-R1 數據集中有5 個獨立的金標準,RCPA-Net 模型通過實驗分別得到了5 類預測視盤圖像并計算平均值,如表8 所示。JC與Fmeasure指標在視盤分割中分別為0.929 0與0.962 8,比U-Net分別提高了7.21%與3.69%;比CE-Net 提高了2.03%與1.01%;比CS2-Net 提高了3.03%與1.12%。實驗研究過程中發現,RCPA-Net在部分專家的金標準下由于圖像中視網膜血管等因素的干擾導致分割性能稍差,但總體結果顯示RCPA-Net的性能優于CE-Net等主流算法。

表8 不同方法在RIM-ONE-R1數據集的分割結果比較Table 8 Segmentation comparison results of different methods on RIM-ONE-R1 dataset

為了驗證RCPA-Net 對于視盤和視杯分割邊界的性能,在ORIGA 數據集通過使用作者公開代碼分別復現了U-Net、CE-Net 和最近提出的GDCSeg-Net網絡(Zhu等,2021)的MAE 和豪斯多夫距離(HD)結果,并對預測結果的邊界進行評估分析。對比實驗結果如表9 所示,RCPA-Net 分割視盤的MAE與HD分別為0.009 7與7.6923,分割視杯的MAE與HD分別為0.014 1 與14.239 4,均低于對比網絡,說明RCPA-Net分割結果邊界與原標簽邊界更相近,吻合度更高。

表9 不同方法在ORIGA數據集對視盤和視杯邊界分割精度的影響Table 9 Influence of different methods on the accuracy of optic disc cup boundary segmentation on ORIGA dataset

為驗證RCPA-Net的泛化性能,本文進行跨庫實驗驗證,采用ORIGA 上訓練得到的模型,分別在Drishti-GS1 與RIM-ONE-R1 測試集上進行測試,實驗過程中復現了U-Net、CE-Net 和GDCSeg-Net 的結果,并與本文模型進行對比,實驗結果如表10 所示??梢钥闯?,在Drishti-GS1 測試集中,分割視盤的JC與Fmeasure分別為0.946 5 與0.972 5,分割視杯的JC與Fmeasure分別為0.816 3 與0.897 2。在RIM-ONER1 測試集中選取5 個金標準分別預測視盤,得到5 個 結果取平均 后,JC與Fmeasure分別為0.862 7 與0.924 6。相比在Drishti-GS1的分割結果,RCPA-Net在RIM-ONE-R1 的分割精度有所降低,可能的因素有RCPA-Net 在ORIGA 數據集訓練的圖像特征與Drishti-GS1 數據集更為相似,所以得到的分割結果更精確。綜合可知,RCPA-Net在跨數據集實驗測試中仍表現優于其他主流的分割算法,說明其泛化性強。

表10 不同方法在Drishti-GS1與RIM-ONE-R1測試集的分割結果對比Table 10 Comparison of segmentation results on Drishti-GS1 and RIM-ONE-R1 testing datasets among different methods

3.4.3 分割結果可視化

本文提出的RCPA-Net 在4 個公開數據集上均表現最優,為了進行更加直觀的比較,圖11 展示了在ORIGA 數據集上選取的4 幅圖像的數據可視化,可以看出本文的分割網絡在性能上與其他網絡相比取得了明顯提升,通過U-Net 網絡訓練得到的視盤和視杯預測區域較為粗糙,M-Net 網絡分割結果定位精度偏低,與CE-Net 等網絡相比,本文模型預測圖像更接近標簽圖像,分割結果更準確。

圖11 不同方法在ORIGA數據集的分割結果比較Fig.11 Comparison of segmentation results of different methods on ORIGA dataset

圖12 為不同方法在Drishti-GS1 數據集上的分割結果比較,與ORIGA 數據集中眼底圖像相比,Drishti-GS1數據集圖像對比度低,圖像比例不均,更難達到精準的預測結果。從圖中可以看出,U-Net網絡分割出的視盤和視杯區域不規則,M-Net 網絡分割出的區域邊界不連續,而RCPA-Net的預測結果更加接近專家手動標注的真實結果。

圖13—14 為本文 網絡與U-Net、CE-Net、GDCSeg-Net 和M-Net 網絡在Refuge 數據集與RIMONE-R1 數據集中選出4 幅圖像進行的分割結果可視化對比,其中RIM-ONE-R1 數據集在圖中展示的4 組分割結果以其中一種金標準為標簽,且僅有視盤分割,而Refuge 數據集相比其他3 個數據集圖像對比度更低,分割難度更大。通過與其他流行算法模型的實驗結果對比可以看出,RCPA-Net 可以更好地識別視盤和視杯區域,分割結果邊界平滑且連續。盡管部分眼底數據集因為視網膜病變或者視網膜血管擋住視盤和視杯等因素導致分割結果出現偏差,但是整體結果仍顯示RCPA-Net 的預測結果更加接近真實標簽,并優于對比的分割方法。

圖13 不同方法在Refuge數據集的分割結果比較Fig.13 Comparison of segmentation results of different methods on Refuge dataset

圖14 不同方法在RIM-ONE-R1數據集的分割結果比較Fig.14 Comparison of segmentation results of different methods on RIM-ONE-R1 dataset

4 結論

眼科圖像視盤和視杯分割在疾病診斷中具有重要意義。本文提出一種端到端的RCPA-Net 網絡應用于眼底圖像中視盤和視杯分割任務。相比于傳統的編碼器解碼器網絡,RCPA-Net采用殘差空洞卷積模塊以及路徑增強模塊來捕獲更深層次的特征以及更精準的定位信息,側輸出層產生局部預測圖,有利于早期的訓練。此外,在圖像預處理階段采用限制對比度自適應直方圖均衡來增強圖像對比度,更清晰地顯示視盤和視杯邊界信息。在ORIGA、Drishti-GS1、Refuge 和RIM-ONE-R1 4 個數據集上進行實驗,結果表明在不同數據集上RCPA-Net的分割性能均優于對比的視盤和視杯分割網絡,證明了本文方法的有效性。雖然RCPA-Net 對分割性能的提升較為顯著,但是模型中包含大量模塊組合,增加了訓練時長。另外在視杯分割任務中,模型精度沒有太明顯的提升,主要是由于視杯區域邊界模糊等限制,尤其是在一些對比度低的圖像上,視盤和視杯分割精度差異較大。未來工作擬用自監督學習代替殘差網絡作為主干,在縮短訓練時間的同時提高網絡分割精度。

猜你喜歡
視盤像素卷積
趙運哲作品
視盤傾斜在高度近視中的研究進展
像素前線之“幻影”2000
基于3D-Winograd的快速卷積算法設計及FPGA實現
伴視盤出血的埋藏性視盤玻璃疣患者的臨床特點和眼底影像特征陳秀麗
“像素”仙人掌
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
視盤內出血伴視盤旁視網膜下出血1例
高像素不是全部
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合