?

融合坐標感知與混合提取的視網膜病變分級算法

2024-04-01 07:02梁禮明金家新盧寶賀
光電工程 2024年1期
關鍵詞:視網膜損失分級

梁禮明,金家新,馮 耀,盧寶賀

江西理工大學電氣工程與自動化學院,江西 贛州 341000

1 引 言

糖尿病視網膜病變(Diabetic retinopathy,DR)是一種由糖尿病所引發的眼部疾病,患者長期處在高血糖環境下,非常容易損傷視網膜,如未能及時發現疾病并進行治療則易造成失明,如及時治療則有很大概率能保住視力。在臨床實踐中,糖尿病視網膜病變診斷,這一過程非常耗時需要訓練有素和經驗豐富的眼科醫生來進行判別,診斷的精度需要經濟、時間成本和相應的醫療資源。此外,當前患糖尿病的人群正在逐年遞增,而具有專業眼科經驗醫生人數嚴重不足。因此將計算機用于DR 智能診斷,提高診斷效率和準確度的需求顯得尤為迫切[1-2]。

近年來,深度學習技術逐漸成為主流[3],使得卷積神經網絡(convolutional neural network,CNN)在DR 智能診斷方面得到廣泛應用,但對于當前的視網膜病變分級仍存在不足之處:①由于本文研究對象視網膜本身情況較為復雜且病灶區域與微血管瘤等周圍環境差異較少,病變特征提取困難。②受糖尿病病變階段和可治愈性的影響,導致患者處在不同病變階段的數量不一致,使其數據集的樣本分布不平衡。針對上述問題,國內外眾多學者進行大量研究,如He 等[4]構建一種CABNet 網絡,由新類別的注意力(category attention block,CAB)探索DR 各類別的區域特征以捕捉更細小的病變信息,從而緩解特征提取不足情況。Ashwini 等[5]設計一種基于離散小波變換多分辨分解的特征提取方法,先對圖像使用自適應直方圖均衡化預處理方式,然后利用過采樣去確保各類別樣本數量相等。Zhou 等[6]采用一種多任務學習策略,該策略通過分類和回歸損失來預測標簽,同時又通過均方差損失函數去減少預測值與實際值的差異,但也存在訓練時間較長的問題。Shi 等[7]使用遷移學習技術學習多個數據集的特征信息,從而使模型獲得充足的特征信息,強DR 分級效率,同時提出一種類平衡損失函數,緩解數據集樣本不平衡問題。Shaik 等[8]利用預訓練的卷積學習視網膜的圖像空間表征,此外還利用卷積自編碼器和神經支持向量機進行端對端訓練,從而獲得基于類別病灶特征的潛在注意力特征。張文軒等[9]通過多分支注意力增強機制的卷積神經網絡,利用局部響應圖來反映關注目標局部位置,能夠反映存在不同位置的權重,將會使局部特征較為敏感,此外注意力機制還可以對所需位置進行針對性強化,使該網絡能夠準確定位病灶區域。程小輝等[10]構建的一種注意力網絡ME-ANet,通過模型融合進行特征提取,應用遷移學習的方式訓練模型從而減少訓練時間,但模型的結構較為復雜,存在可優化空間。針對視網膜病變分級當前面臨的技術局限問題,本文提出一種融合坐標感知與混合提取的視網膜病變分級網絡,其改進工作主要有:①采用Res2Net-50 和Densenet-121 作為骨干網絡共同構成混合雙模型(mixed dual model,MDM)進行逐層特征提取圖像的語義信息和空間細節信息,并利用兩個模型不同的特征提取方式進行優勢互補,提升算法的魯棒性和泛化性。②多層坐標感知模塊(Multi-layer coordinate sensing module,MCSM)通過全局和局部兩種方式獲得深層語義信息與細節邊緣信息,同時還利用殘差結構捕捉淺層語義信息,進一步完善病變區域特征信息。③利用焦點損失(focal loss,FL)和交叉熵損失函數組成的組合損失函數來抑制樣本不平衡而造成的模型性能問題,弱化因樣本引起視網膜病變分級準確率不高,改善DR 分級效果。

2 網絡整體框架

視網膜病變分級相對于其他細粒度圖像分類問題較為困難,因公開的數據集中存在樣本分布不均勻、類間差異小和圖像噪聲干擾較大的問題。本文設計出一種融合坐標感知與混合提取的視網膜病變分級,其主要由圖像預處理、混合雙模型(MDM)、多層坐標感知模塊(MCSM)、注意力特征融合模塊(attentional feature fusion module,AFFM)、組合損失函數共同組成整體網絡,其中GAP 與Avg pooling 為全局平均池化、ReLU 和Sigmoid 為激活函數、Point-wise Conv為逐點卷積,如圖1 所示。在進行特征提取之前對本文所采用的兩個數據集進行預處理改變其分辨率的大小,首先通過混合雙模型進行特征提取獲得豐富的語義信息,選擇最后三層的尺度特征圖大小為512×56×56、1024×28×28和 2048×14×14;其次利用MCSM 對所輸出的多種尺度信息進一步挖掘潛在特征,提高特征識別的效率,增強圖片處理速率;再次通過卷積操作使通道數一致化,分別為512×56×56、512×28×28和 512×14×14,進一步利用AFFM 將不同尺度特征圖X與Y特征融合處理,其結果特征圖為Z,輸出多尺度特征圖共同構成完整的圖像信息,增強病灶區域特征的識別效率,加快模型訓練速度;最后通過組合損失函數進一步緩解類間差異情況。

圖1 算法整體框架Fig.1 The overall framework of the algorithm

2.1 混合雙模型

針對視網膜病變分級中存在病灶區域與背景區域特征相差較小而造成的特征提取困難問題,本文提出的混合雙模型,該模型主要由Res2Net-50[11]和Densenet-121[12]組成用于提取病灶信息,相較于單個模型具有較高的分類精度。Res2Net-50 采用跳躍連接方式,通過殘差塊有利于輸入信息和處理后信息的再次處理,從而降低需要學習的目標難度且能夠捕捉到圖像中細節和上下文信息、減少模型的冗余。Densenet-121 能利用密集連接將特征圖進行拼接促進信息的流動和減輕梯度消失問題,同時還能防止圖像信息的丟失。殘差網絡和密集網絡共同組成的混合模型能增強特征提取能力并進一步改善算法模型的性能,將獲取更全面的圖像全局和局部信息,其模型的結構如圖2所示。Res2Net-50 和Densenet-121 擁有相同的階段,但兩者的不同階段所蘊含特征信息不一致,其每個階段的輸入信息表達式分別為:

圖2 混合雙模型Fig.2 The hybrid dual model

其中:n∈(1,2,3,4),Xn(R)是Res2Net-50 輸入特征,Xn(D)是Densenet-121 輸入特征,H1(?)表示非線性轉化函數。

本文所需提取最后三個階段特征圖大小一致,但其通道數還是存在差別,為使兩者的特征信息進行融合處理,將Densenet-121 的最后一層的通道數通過Conv 1×1從1024 轉為2048,最后輸出三個不同的特征圖大小。

2.2 多層坐標感知模塊

由于視網膜圖像周圍存在的微血管瘤、黃白色硬性滲出或有少量的出血斑等細小病變特征,與正常區域對比差異不明顯,單層的特征學習對信息特征提取可能存在不足之處,導致視網膜病變分級的效果不佳。為捕獲更完整的信息,得到較高的視網膜分級準確率,從而設計一種多層坐標感知模塊(MCSM),使模型更準確地定位并識別病灶區域。MCSM 主要由坐標注意力模塊[13](coordinate attention module,CAM)、多層感知機(multilayer perceptron,MLP)和殘差連接結構三部分組成,其整體結構如圖3 所示。為加快模型訓練的收斂速度而加入BN (batch normalization),而后CAM 是一種嵌入位置信息注意力,能夠獲得較大的區域信息且運行參數較少,同時為避免2D 全局平均池化造成的信息損失,設計兩個1D 全局平均池化分別對水平方向和垂直方向的輸入特征處理聚合生成兩個獨立的方向特征圖f,水平方向的池化核為(H,1),垂直方向的池化核是(1,W),C維特征輸出分別為:

圖3 多層坐標感知模塊Fig.3 The multi -layer coordinate perception module

其中:F1是變換函數,特征圖f∈RC/r×(H×W),r為縮減比,δ 是一個非線性激活函數。

同時將存在特定信息特征圖編碼生成兩個注意力圖分別為gh、gw,從而獲取兩個不同的空間信息,其中一個空間方向能夠捕獲與特征圖之間的跨通道信息,則另一個空間方向將獲得準確的位置信息,使注意力圖能夠同時獲取方向感知和位置坐標的深層語義信息,同時殘差連接又能從輸入特征獲取淺層語義信息,最終通過融合進一步處理生成具有豐富語義信息的特征注意力圖,即表達式為:

其中:fh∈RC/r×H,fw∈RC/r×W,σ是sigmoid,xc(i,j)輸入特征,yc(i,j)輸出特征,Fh、Fw將fh、fw的通道張量轉換成與輸入值一致。

為排除與病灶不相關的干擾信息,利用第一個全連接層與激活函數進行線性變換和非線性變換,其后dropout 層則丟棄部分隱藏特征信息,而第二個全連接層將隱藏特征映射回輸入特征,最后通過一個殘差連接將弱化非病變特征信息和輸入特征信息進行聚合處理,進一步聚焦病灶區域特征。

2.3 注意力特征融合模塊

為捕獲和聚合不同尺度特征圖的局部細節信息和全局信息且能自適應不同大小和位置的病灶區域識別。本文引入了注意力特征融合模塊(AFFM)[14]融合多層坐標感知模塊輸出的多種尺度信息,該模塊主要由全局和局部兩部分組成,其結構如圖1 中AFFM 所示。AFFM 中的輸入特征X和Y來自兩個不同的特征圖。在全局方向上利用全局平均池化對空間池進行調整,以實現多個尺度的通道關注。此外,為控制整體網絡的運行參數,將注意力添加到上下文當中,隨后通過逐點卷積把上下文聚合在一起。在局部方向則只能實現特定通道的關注,同時利用逐點卷積將上下文信息聯會貫通。將經過全局和局部的輸入特征通過聚合處理,最后經過sigmoid 函數對權重進行再次分配,并利用跳躍連接與初始輸入特征進行融合處理,其表達式為:

其中:Z∈RC×H×W是輸出特征,X、Y∈RC×H×W是輸入特征,⊕初始特征積分,M為sigmoid 函數,X⊕Y是輸入sigmoid 函數的值。

2.4 組合損失函數

公開的DR 數據集是來自糖尿病患者的視網膜圖像,根據患者處在糖尿病的階段不同可分為五個等級,而糖尿病階段不同也造成可被治愈程度不一致,導致各個類別存在較大的差異。為解決各類別之間樣本不均勻情況,本文提出的組合損失函數由焦點損失函數[15]和交叉熵損失函數[16]共同構成,焦點損失函數能夠通過一個動態縮放因子,在易被識別的正確樣本時縮放因子就會下降到一個較低值,相反遇到較難辯別的樣本時就會聚焦此樣本,同時影響因子會上升到一個較高值,兩種損失函數的表達式分別為:

其中:v是加權誤差調制系數,pt是標簽預測概率,t表示樣本類別,yi,k表示第i個樣本的真實標簽為k,共有k個標簽值的N個樣本,pi,k表示第i個樣本預測為第k個標簽值的概率。最后,將所使用的焦點損失和交叉熵損失函數進行加權求和,其計算式如下:

其中,α為超參數設置為0.002。

3 實 驗

3.1 實驗環境和參數配置

本文所使用設備信息CPU 為12th Gen Intel(R)Core(TM) i7-12700H,GPU 為NVIDIA RTX4060,16 G運行內存,操作系統是Windows11,基于Python3.9框架建模,Pycharm 的仿真平臺。其學習率設為0.002、batch-size 為4、epoch 為150 輪。在 IDRI D數據集實驗中平均一輪的訓練時間為45 秒/輪,測試時間為11 秒/輪。在APTOS 2019 數據集實驗中平均一輪的訓練時間為2 分30 秒/輪,測試時間為15 秒/輪。

3.2 數據的來源和處理

本文使用“印度糖尿病視網膜病變圖像(Indian DR image dataset,IDRID)數據集”,該數據集擁有不同等級的眼底圖像一共516 張,其圖像的分辨率為4288×4288,將分辨率進行適當的調整,改為512×512。由于當前數據集所含有的圖像數量較少,其實驗結果對于本文的模型解釋性不夠充分,因此還采用“亞太遠程眼科學會2019 年失明檢測(Asia Pacific Tele-Ophthalmology Society 2019 Blindness Detection,APTOS 2019 BD)”數據集來增強模型的解釋性,其數據集含有3662 張眼底圖像,圖像分辨率為224×224,并通過上采樣操作轉變成256×256。對本文IDRID 和APTOS 2019 數據集的眼底圖像將分為訓練集和測試集,統一按8: 2 進行劃分。根據當前國際醫療領域的評判標準將糖尿病視網膜病變按照不同等級可劃分為5 類[17],即為無糖尿病(DR: 0)、輕度非增殖性(DR: 1)、中度非增殖性(DR: 2)、重度非增殖性(DR: 3)和增殖性(DR: 4)。在本文所使用的兩個數據集中,存在病變區域和圖像背景對比度差異不明顯的情況,因此需要進行預處理操作,先對原始圖像RGB 通道統一為灰度化操作能在一定程度上加快運算速度,后利用高斯濾波和加權融合處理去除圖像噪聲,進一步增強病變區域和圖像背景的對比度,突出對比的差異性。其表達式分別為:

其中:α、β和 ε是加權系數,本文分別設為4、-4和128;Gσ是標準差;σ 是二維高斯核;*是濾波操作;Id是加權融合操作后的圖像。此外,IDRID 與APTOS 2019 數據集相比較樣本數量較少,可能會出現過擬合現象,所以對該數據集進行水平、垂直翻轉和鏡像翻轉、幾何變換等操作來數據增強避免出現過擬合。其預處理圖像前后如圖4 所示。

圖4 不同DR 分級圖像預處理對比。(a)原始圖像;(b)預處理后圖像Fig.4 Different DR hierarchical images pre -processing comparison.(a) Primitive images;(b) Pre-processing images

3.3 評價指標

為體現IDRID 和APTOS 2019 數據集在算法上的表現效果,同時能夠對其它算法進行比較,本文在IDRID 數據集使用靈敏度(sensitivity,Se)、特異性(specificity,Sp)、準確率(accuracy,Acc)和二次加權kappa 系數(quadratic weighted kappa,QWK)作為評價指標。此外在APTOS 2019 數據集還利用ROC 曲線下方的面積(area under curve,AUC)和召回率(recall,Re)對其進行評估,其計算式分別為:

其中:TP為樣本和模型識別結果都為正類,TN的表示則恰好與之相反,FN表示樣本為負類而模型結果為正類,FP表示樣本為正類而模型結果負類,N為總類別數,Wi,j表示i類和j類的懲罰權重,Qi,j為第i類判別為j類的數量,Ei,j為第i類的總數×第j類的總數除以總數,用于平衡分類效果kappa 系數是檢驗一致性的指標,其系數在[-1,1]變化通常大于0,值越高則表示一致性越高。

3.4 實驗結果分析

本文算法在IDRID 和APTOS 2019 數據集訓練過程損失值變化趨勢如圖5 所示,IDRID 數據集訓練損失值維持在0.4 左右,APTOS 2019 數據集損失值維持在0.1 左右,波動幅度較小,表明網絡已趨于收斂。該算法的兩個數據集都經過150 輪的訓練過程,在130 輪的時候將達到最高峰,且通過觀察損失函數曲線在130 輪的時候訓練和測試損失曲線將達到平穩,并且兩者之間相差較小達到收斂狀態。

圖5 本文算法在 (a) IDRID 數據集和 (b) APTOS 2019 數據集上的訓練損失曲線Fig.5 The training loss curves of the proposed algorithm on (a) the IDRID dataset and (b) the APTOS 2019 dataset

3.4.1 熱圖可視化

為驗證本文算法對視網膜圖像的學習效果,利用原始圖像通過本文模型生成網絡特征熱圖[18],通過觀察網絡特征熱圖,發現圖像病變區域色彩差異較大效果明顯,如圖6 所示。在圖6(b)的圖像中其藍色代表低概率病變區域,綠色代表存在可能病變區域,紅色代表高概率病變區域。其中綠色方框表示原始細微處的病灶區域,橘色方框為經過模型學習后的效果,通過觀察DR: 1-4 能夠發現熱力圖高亮區域越來越多且分布較廣,既有細微之處的病變也有顯著的病灶區域,圖像相較于初始圖像對病灶區域的對比差異度明顯,從而表明該算法學習效果較好。

圖6 網絡特征熱圖。(a) 初始圖像;(b) 熱力圖像Fig.6 Network feature hot pictures.(a) Initial images;(b) Thermal images

3.4.2 消融實驗

為探究本文算法中各模塊和組合損失函數的有效性,通過控制變量法在IDRID 數據集進行消融實驗。實驗結果如表一所示,表中M1:在整個算法模型中僅去除MCSM;M2:在整個算法模型中僅去除AFFM;M3:基于Res2Net-50 的單個模型的網絡;M4:基于Densenet-121 的單個模型的網絡;M5:基于混合模型的焦點損失函數網絡;M6:完整的算法模型網絡。

從表1 中M1、M2 和M6 的數據對比可以得知,各項的評價指標均有較大的提升,表明多層坐標感知模塊和注意力特征融合模塊的加入,可以進一步增強DR 分級效果;M3 和M6 對比結果可知,混合模型相較于單個Res2Net-50 模型在準確率、特異性和二次加權kappa 系數上有較大的提升,分別為1.94%、5.88%和2.63%;M4 與M6 對比可知,對比Densenet-121 模型在準確率和靈敏度上有較大的提升,分別為0.97%和7.25%,說明本文使用的混合雙模型結構能夠加強模型的一致性和病變區域的敏感性;M5 和M6 的實驗數據分析可知,各參數指標都有一定程度的增長,表明組合損失函數能夠提升視網膜病變分級的性能。

表1 在IDRID 數據集的消融結果Table 1 The ablation results of the IDRID dataset

消融對比實驗混淆矩陣如圖7 所示,從圖7 中比較能夠發現M6 混淆矩陣,數據多分布在對角線上且數值較大。而錯誤識別的樣本數據較小且分布在對角線周圍,說明本文所提出的改進對視網膜病變區域識別有顯著作用,能夠增強DR 分級能力。

圖7 混淆矩陣Fig.7 The confused matrix

3.5 與其他DR 分級算法的對比

IDRID 和APTOS 2019 數據集在不同算法中實驗對比結果分別為表2 和表3。表2 用QWK、Acc、Se和Sp 作為評價指標,與之對比該實驗的是當前DR分級主流算法(如文獻[7])采用多階段的遷移學習方法,提取不同數據集中特征表示信息,能夠提高病變分級效果,與本文結果相比略低。文獻[19]提出IFTL DR 預測模型(CNN+SVM),先對數據集進行背景消除技術,再利用CNN 模型獲取圖像特征并通過SVM 進行機器學習分類,雖然綜合了兩者的優勢,有較大的進步,但還是低于本文算法。文獻[20]構建一種將粗細網絡優勢互補的方法,粗網絡主要進行二分類作用,而細網絡則進行細分等級,提高視網膜分級效率,與本文相比仍有不足之處。文獻[21]是采用ResNet-50 為主干網絡,其次還有自適應特征過濾、特征互補融合模塊和細粒度分類損失和焦點損失函數共同組成算法模型,能夠在一定程度上緩解樣本不平衡,提高模型DR 分級效率,Se 和本文一樣,但其他指標略低于本文算法。表2 中的文獻[22]和文獻[23]是關于IDRID數據集的復現,文獻[22]是細粒度分類,以ResNet-50 為骨干網絡加入特征增強、抑制模塊和信息融合模塊共同組成,有利于挖掘細微病變特征,提高病變分級能力,只有QWK 比本文高0.35%,其他指標低于本文算法。文獻[23]是一種跨層相互注意力網絡能夠循環訓練進行特征提取,但由于參數量較多,模型過于復雜,所以指標比本文較低。

表2 不同算法在IDRID 數據集的結果表現Table 2 The results of different algorithms in IDRID data sets

表3 不同模型在APTOS 2019 數據集的結果表現Table 3 The results of different models in the APTOS 2019 data sets

如表3 所示,在APTOS 2019 數據集采用QWK、Acc、Re 和AUC 作為評價指標,與最近主流算法作對比。文獻[8]構建一種多階段學習,能夠同時獲取圖像空間表征信息和病灶注意力特征信息,準確率略高于本文算法,但其他指標則遠低于本文算法,可能對于潛在的注意力特征病變區域的利用較優于文中算法。文獻[24]構建了一種具有門控注意力機制的深度神經網絡,能夠獨立的從不同的通道特征中學習到不一致的特征信息,且有利于提高模型的泛化性,但與本文算法相比較弱。文獻[25]使用VGG16-fc2 和Xception 結合的混合模型,從不同模型中提取到多個深度特征,進行相互補充,雖然能提高模型性能但其評價指標遠低于本文。文獻[26]應用遷移學習DenseNet201 算法能在較短時間內生成大量特征,在對比結果中準確率最高,超過本文1.51%,但其它評價指標低于本文算法,造成結果相差較大。文獻[26]基于水平和垂直方向的非固定尺寸分割模型,對于病灶區域的識別相較于本文算法更為準確。這可能是因實驗設備存在差異,文獻[26]采用服務器來進行實驗而本文則采用電腦的方式進行實驗。

此外,為進一步增強本文算法的說服力,在相同實驗條件下將最近主流算法的兩篇文獻[22]和[23]在APTOS 2019 數據集上進行復現,其數據結果如表3 所示。文獻[22]算法與本文算法在Acc 評價指標上結果較為接近,但QWK、AUC 與Se 值與本文相比較低。文獻[23]雖然可以多次循環訓練,但也存在 (a)、(b)、(c) 模型結構復雜、實驗時間較長等問題。

圖8 是APTOS 2019 數據集的實驗結果,其中8(a)、8(b) 和 8(c) 分別表示文獻[22]復現結果、文獻[23]復現結果和本文算法的ROC 曲線,觀察圖8中的三幅圖發現 8(c) 中DR:0-4 的曲線圖分布較為相近且都靠近左上角(越靠近左上角表明預測模型的準確率越高),尤其當DR 為4 時對比 8(a) 和 8(b) 曲線圖更為明顯。ROC 曲線下面積計算AUC 值分別為92.78%、92.46%和93.60%,結果表明本文算法在該數據集上較優。通過表2 和表3 本文算法和對比算法進行比較其數據較好,表明模型存在較強的泛化性且具有一定的優越性,對視網膜病變分級具有良好效果。

圖8 復現DR 各類AUC 值。(a) ResNet-50+FDM[22];(b) ResNet-50[23];(c) 本文方法Fig.8 Reapped various types of AUC values.(a) ResNet-50+FDM [22];(b) ResNet-50[23];(c) Method of this article

4 結束語

本文提出一種融合坐標感知與混合提取的糖尿病視網膜病變分級模型。由于存在特征提取不充分問題,采用混合雙模型進行逐級特征提取,并選取多種尺度信息構成一個完整的圖像信息。為了使多尺度特征信息進一步聚焦到病變特征,通過多層坐標感知模塊和注意力特征融合模塊篩選干擾噪聲后進行兩種多尺度信息特征融合;其次根據自適應病灶特征重新分配權重確保微小病變區域也能夠獲取足夠的權重;再次利用組合損失函數緩解不同樣本之間存在的差異,從而提升DR 分級的準確率;最后進行實驗在數據集IDRID 中的靈敏度與特異性分別為94.20%和97.05%。在數據集APTOS 2019 上的靈敏度和ROC 曲線下方面積分別為87.40%和93.60%。實驗結果表明,本文算法總體性能優于近年不同算法,結果表明本文算法具有一定的應用價值。

猜你喜歡
視網膜損失分級
深度學習在糖尿病視網膜病變診療中的應用
家族性滲出性玻璃體視網膜病變合并孔源性視網膜脫離1例
高度近視視網膜微循環改變研究進展
胖胖損失了多少元
玉米抽穗前倒伏怎么辦?怎么減少損失?
分級診療路難行?
復明片治療糖尿病視網膜病變視網膜光凝術后臨床觀察
分級診療的“分”與“整”
一般自由碰撞的最大動能損失
分級診療的強、引、合
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合