?

融合卷積和Transformer的多尺度皮膚病變分割算法

2024-03-05 07:35蔣新輝李筱林韋春苗覃鎮鋒
無線電工程 2024年3期
關鍵詞:像素卷積病灶

蔣新輝,李筱林*,韋春苗,覃鎮鋒

(1. 柳州鐵道職業技術學院 通信與物聯網學院,廣西 柳州 545616;2. 廣西生態工程職業技術學院 汽車與信息工程學院,廣西 柳州 545004)

0 引言

黑色素瘤是一種常見的皮膚癌,惡性黑色素瘤在皮膚癌中的的致死率占比75%,嚴重威脅著人類的健康[1-3]。黑色素瘤的早期癥狀不明顯,外觀上與良性痣相似度極高,若能在病發早期及時確診并接受相關手術治療,患者的治愈率極高[4]。安全無創的皮膚鏡技術能獲取各類皮膚病的皮膚鏡圖像,已漸漸成為臨床中各種皮膚癌早期診斷的重要手段。在臨床診斷中,因病變區域本身具有一定的復雜性,如病灶的不良殘留(頭發、標尺標記和人造偽影)、對比度低、顏色不均和邊界模糊等因素的影響,皮膚科醫生對病灶進行診斷非常耗時耗力,且存在一定主觀性。得益于計算機視覺技術的發展,圖像處理技術在醫學影像分析中得到廣泛使用。

傳統的皮膚鏡圖像分割方法如閾值分割[5-7]、邊緣檢測[8]和區域生長等[9-10],主要依賴手工特征,不僅實現困難、效率低,且分割結果差強人意,近年來,基于卷積神經網絡的一系列體系架構被提出并用于圖像分割,如最為典型的全卷積神經網絡(Full Convolutional Neural Network,FCN)[11-12]和對稱的編解碼網絡U-Net[13]?;赨-Net的模型架構在各種醫學影像分割任務中取得優異成績,包括Res-Ne[14]、U-Net++[15]和CE-Net[16]等。隨著學者的深入研究,卷積分割模型得到不斷地優化和改善,如2017年,Bi等[17]采用多階段全卷積網絡(mFCN)中的并行融合方法實現了精確的皮損分割;2019年,Tang等[18]開發了基于深度監督學習策略的多階段U-Net(MS-U-Net)以進一步提高分割性能。這些方法的卷積操作具有很好的平移不變性和局部相關性,提高了其分割任務的性能,但是因卷積受限于感受野通常很難捕獲全局上下文信息,而全局上下文信息對于皮膚病變的精確定位具有重要的意義。另一方面,在醫學影像語義分割中,像素之間的長程依賴關系對于準確定義邊界輪廓像素至關重要。與卷積神經網絡(CNN)不同的是,在自然語言處理(Na-tural Language Processing, NLP)領域中,Vision Transformer(ViT)[19]結構被認為能夠捕獲特征的長程依賴關系,但ViT是一個用來完成分類任務的網絡,且需要大規模的訓練數據集才能具有較好的分類效果,最重要的是它無法解決語義分割任務中像素級的密集預測問題。2021年,一種新型的Transformer——Swin Transformer[20]橫空出世,相對于ViT,Swin Transformer不僅計算復雜度大大減小,且該層次化結構的網絡模型可利用滑窗操作進行自注意力的計算,它是一種通用的骨干網絡,可用于完成圖像分類、分割和目標檢測等任務。為了同時擁有CNN強大的局部細節捕獲能力以及Transformer的全局上下文建模的能力,許多學者將U-Net和Transformer兩種架構進行合并研究[21-24],結果表明這種新穎的架構獲得更精準的醫學影像分割。受此啟發,本文針對現有皮膚鏡圖像分割方法存在的局限與不足,從病灶特征提取和上下文信息全局建模2個角度進行深入研究,提出了一種基于CNN和Transformer的多尺度皮膚病變分割網絡,主要步驟如下:

①利用ResNet34進行局部特征的提取,建立特征多級局部語義相關性;

②利用Swin Transformer模塊對上下文信息進行全局信息建模,捕獲特征的長程依賴關系;

③提出了多尺度聚合模塊來捕獲皮膚病變的多尺度信息,有效兼顧長短不一、形狀多變的病灶信息,避免了傳統卷積神經網絡捕獲復雜病灶特征時信息丟失的問題;

④解碼塊逐步融合來自上下文和跳躍連接2條路徑的多級語義特征,考慮到跳躍連接路徑的特征中夾雜著較多噪聲,為了降低噪聲干擾,在解碼塊采用了高效通道注意力機制進行處理。

1 算法描述

本文算法主要分為三部分,總體架構如圖1所示。第一部分為編碼模塊,采用ResNet34[25]對輸入圖像進行特征提取,在ImageNet數據集上經過預訓練的ResNet34擁有豐富的自然圖像特征,可以為皮膚分割模型提供較好的初始權重,有助于模型更好地挖掘病灶特征,其殘差連接可很好地避免因深層卷積而出現的梯度消失或者梯度爆炸現象。ResNet34金字塔結構下采樣方式可以有效改善網絡的復雜度和收斂速度,同時可以捕獲局部相關性。第二部分是上下文模塊,針對CNN的皮膚鏡圖像分割在建立遠程依賴上的不足,在處理上下文特征中引入Swin Transformer模塊,利用Swin Transformer全局信息交互能力幫助特征提取器快速建立皮膚鏡圖像全局感受野,并采用多尺度聚合模塊捕獲多尺度上下文特征信息,增強網絡對特征的利用率。第三部分是解碼模塊,逐步聚合低級語義信息和高級語義信息,該解碼塊跳躍連接接口配備了一個輕量級的注意機制,以緩解皮膚鏡的紋理、對比度和顏色的變化差異帶來的噪聲干擾,通過降低背景噪聲和增強邊界細節來促進低水平和高水平特征的融合。

圖1 算法總體架構Fig.1 Overall algorithm architecture

1.1 Swin Transformer模塊

由于卷積操作受限于感受野,從而導致卷積網絡很難建立像素之間的長程依賴關系?;诖?本文采用4個相同Swin Transformer模塊串聯成一個獨立的模塊對上下文進行全局建模,Swin Transformer使用了基于移位窗口的多頭自注意力機制來提取上下文特征,從而捕捉不同尺度像素之間的關系,建立像素之間的長程聯系,Swin Transformer的標準架構如圖2所示。

圖2 Swin Transformer 的標準架構Fig.2 Standard architecture for Swin Transformer

編碼塊的操作后得到的像素分辨率圖像首先被轉換成多個不重疊的小塊(patchs),每個塊(patch)被看作一個token,再經過線性映射(Linear Embedding)將特征塊轉換成特征序列,這2個過程均由塊嵌入模塊(Patch Embed)實現,隨后被饋傳送到Transformer的4個標準架構單元中進行特征提取,一個Swin Transformer 的標準基礎單元(Swin Transformer Block)包括基于窗口的多頭自注意(Window-Multi-head Self Attention,W-MSA)模塊和基于移位窗口的多頭自注意(SW-MSA)模塊。每個塊由層模LayerNorm(LN)層、多頭自注意模塊、殘差連接和2層MLP組成,MLP中間有ReLU非線性激活層。在多頭自注意力機制中,輸入特征被分成多個頭,每個頭都計算出一個不同的注意力權重矩陣。這些權重矩陣被加權平均以產生最終的輸出特征。這種方法可以更好地捕捉不同尺度之間的關系,并提高特征表達能力。在移位自注意力機制中,它通過引入移位操作來捕捉不同位置之間的關系。具體來說,它將輸入特征分成多個塊,并且每個塊都與其他塊進行交互。在這個過程中,每個塊都會向左和向右移動一個固定的距離,以便與相鄰的塊進行交互。這種移位操作可以幫助網絡更好地理解不同區域之間的關系,以此來建立像素之間的長程聯系。

假設一張圖片被分成多個尺寸為h×w的塊,塊的數量為M×M,則普通的多頭自注意力(Multi-head Self Attention,MSA)和W-MSA模塊的計算復雜度分別如式(1)和式(2)所示:

式中:Ω為計算復雜度,h、w和c分別為特征圖的高度、寬度和深度。從式中可看出,MSA對輸入圖像塊的大小與計算復雜度成平方關系,而W-MSA對于輸入的圖像塊具有線性的計算復雜度,可見Swin Transformer通過使用W-MSA可有效降低計算的復雜度,采用SW-MSA來提升感受野從而實現不同窗口間的信息交互,所以,一般來說Swin Transformer Block是成對出現的。連續的Swin Transformer Blocks的計算如式(3)~式(6)所示:

(7)

式中:Q,K,V∈RM2,d分別表示查詢、鍵和值矩陣,d表示Q/K維度,M2表示窗口內塊的數量,B的值來自于偏置矩陣。

1.2 多尺度特征聚合模塊(MFAM)

考慮到皮膚病變的長短不一、形狀多變等問題,上下文特征經過Swin Transformer模塊建立全局信息之間的通信后的輸出序列特征重新映射成二維特征,將得到的二維特征輸入至MFAM進一步捕獲多尺度信息。

MFAM如圖3所示,其包含兩部分,前半部分用于提取上下文特征的多尺度信息,由3個不同大小的空洞卷積和一個帶有本地標識的映射分支組成,經過3個膨脹系數分別為2、4、8的膨脹卷積,相對于普通卷積而言,膨脹卷積在保證網絡計算參數不變的情況下能有效地增大卷積核的感受野,有效克服了標準卷積空間信息丟失的問題,經3個膨脹卷積處理得到不同的空間特征信息,后與原輸入映射分支輸出特征信息進行多尺度融合。

圖3 MFAMFig.3 MFAM

考慮到皮膚鏡圖像存在長條形的病灶,方形池化窗口不能很好地提取長條形目標特征,且會造成一定程度的計算浪費,從而帶入一些來自無關區域的噪聲。為進一步兼顧長條形的病灶特征的學習能力從而增強模型的魯棒性,將前半部分輸出的多尺度特征信息輸送到后半部分,后半部分主要采用垂直池化和水平池化來捕獲上下文特征信息,經過水平和豎直池化操作后,特征圖的寬(W)和高(H)變成原來的1/4,為恢復原輸入特征尺寸,對經過2個池化層的特征圖進行上采樣和卷積操作,得到40個通道的新特征圖與原始特征輸入在通道維度進行特征融合輸出得到(C+40)維度的特征。在多尺度模塊后面增加2個條形池化塊來建模特征之間的長距離依賴關系,可以有效增大特征的感受野,進一步提高網絡的魯棒性。

1.3 解碼塊

本文所提模型的解碼塊如圖4所示。先將跳躍連接低水平特征和逐步上采樣后的高水平特征依次進行融合以改善分割結果;由于低水平特征圖中有很多信息與高水平特征重復,而且低水平特征中很多無用信息(如背景信息、毛發和人工造影等信息)會影響分割結果,若直接融合不僅會復制過多的重復信息,還會給高水平的特征帶來噪聲從而影響分割結果。為解決以上問題,更好地利用跳躍連接路徑的特征信息,本文提出以下解碼塊,采用高效通道注意力機制[26]來調整跳躍連接路徑的關注度。首先將每條跳路徑進行全局平局池化獲取每個通道之間的全局特征信息,再通過使用1維卷積(其中卷積內核設置為5)來實現局部跨通道交互來建立通道之間的特征關系,經過Sigmoid對交互信息進行評估實現注意度權重的分配,增強對分割結果有用信息的權重,抑制對分割結果無用甚至有害的信息;然后將得到權重和跳躍路徑的輸入原始特征進行點積,從而獲得對分割結果有效的特征集;最后將跳躍連接特征和解碼階段特征進行融合以改善分割結果。

圖4 解碼塊Fig.4 Decoding block

1.4 交叉熵損失函數

損失函數在網絡模型中的作用是計算出模型分割結果與實際結果的誤差,并將計算得到的誤差通過反向傳播的方式反饋給前面的每一層網絡,進行參數更新,參數更新后模型進行重新訓練以縮小網絡訓練結果與真實標簽的差距,使得模型分割精度提高。醫學圖像分割是將圖像背景和病灶進行分離的二分類任務,所以本研究使用交叉熵損失函數,其計算如下:

(8)

式中:p為模型預測的樣本中病灶的概率。

2 實驗結果及分析

2.1 實驗環境與數據集

所有實驗都在Windows 10操作系統中進行,處理器CPU為Intel(R)i7-11700K,顯卡:GPU為NVIDIA GeForce RTX 3090 顯存容量24 GB,運行內存32 GB。開發環境基于深度學習框架Pytorch 1.7,匯編語言為Python 3.7。本文所提模型的訓練參數如表1所示。

表1 實驗超參數設置Tab.1 Experimental hyper-parameter settings

實驗數據采用國際皮膚成像協會(The International Skin Imaging Collaboration, ISIC)2017年國際皮膚鏡圖像分割競賽中提供的ISIC 2017分割數據集[27],該數據集被來自世界各地權威的醫生進行標注,一共2 750張圖片,其中包含2 000張訓練集、150張驗證集和600張測試集,為了增加數據的多樣性,對數據進行了翻轉、旋轉、裁剪和縮放等增強操作,最終以224 pixel×224 pixel的分辨率進行訓練與測試。

2.2 評價指標

為定量評估模型對皮膚鏡圖像的分割性能,本文采用Dice系數、靈敏度(Sensitivity, SEN)、準確率(Accuracy, ACC)和Jaccard相似系數(Jaccard Similarity Index, JSI)這幾個評估指標對分割結果進行評估,其定義分別如式(9)~式(12)所示:

(9)

(10)

(11)

(12)

式中:TP為真陽性,表示正確標記的病灶像素;TN為真陰性,表示正確標記的非病灶像素;FP為假陽性,表示非病變的像素被標記為病變;FN為假陰性,表示病變像素被標記為非病變。Dice系數是像素級的,其值越高表示模型分割的病灶區域與標簽的契合度越高 (Dice系數值在0~1;JSI與Dice系數類似,是衡量黑色素瘤分割精度的重要評價標準,是評判測量結果與真實標簽相似程度的指標,其值越高(越接近1),表明網絡分割性能越好。

2.3 不同算法結果對比

在ISIC 2017數據集上,將本文提出的算法與在相同配置環境和相同數據增處理下的7種先進方法進行比較,包括 U-Net、Swin-Unet 、MBDCNN[28]、Ensemble-A[29]、DAGAN[30]、UCTransNet和FAGAN。其中MBDCNN、Ensemble-A、DAGAN、FAGAN(2022)等方法專門用于皮膚病變分割,其他方法則是最先進的醫學圖像分割網絡。對比結果如表2所示;表中粗體表示最優值,*表示在相同實驗平臺中的測試結果。本文模型在Dice系數、SEN、ACC和JSI上的得分表現分別為89.55%、88.85%、96.21%和84.01%,相對于其他先進模型來說,Dice、ACC和JSI三個指標獲得了最優值,說明本文所提模型相對于其他3種先進的黑色素瘤分割模型來說具有更高的分割精度,這表明本文所提算法在準確性上優于其他算法。

表2 不同算法在ISIC 2017數據集上的測試結果對比Tab.2 Comparison of test results of different algorithms onISIC 2017 dataset

圖5為本模型與其他3種先進模型在ISIC2017測試集上的描述性統計,其中分別為各模型在ISIC2017測試集上前100個epoch的Dice系數箱型圖和用來衡量各算法速度FPS-FLOPs散點圖。從圖5(a)可以看出,與其他3種模型對比,本模型的Dice系數獲得最優值,且其上下四分位數的差值小,異常值要明顯少于其他模型,表明本模型具有很好穩健性;從圖5(b)可以看出,本模型的計算量FLOPs是最小的且模型推理速度FPS是最快的。綜上可得,本模型具有較高分割精度的同時保持了較好的穩定性以及滿足速度響應要求。

(a)各模型在ISIC 2017測試集上的Dice系數箱型圖

(b)各模型在ISIC 2017驗證集上的FPS散點圖

圖6為本模型與U-Net、Swin-Unet和UCTransNet其他3種模型的分割結果對比圖,其中紅色部分表示預測欠分割,表明模型擬合目標的能力不足;綠色部分表示預測過分割,把背景預測為目標;黃色部分表示模型正確預測目標位置,其區域占比越大,表明模型與標簽的契合度越高,說明模型分割性能越好;黑色代表背景區域。從圖中可以看出,本模型相對于其他3種模型而言,黃色部分區域較大,紅色和綠色區域占比較小,相對而言本模型分割準確率更高、誤判概論較小,說明本模型具有較好的分割性能。

圖6 各模型的分割結果對比Fig.6 Comparison of segmentation results of each model

2.4 消融實驗

表3展示了在所提算法中逐漸加入各種改進手段對ISIC 2017數據測試集語義分割的影響,包括Swin transformer、MFAM和Decoding Block。由表3可知,在基線基礎上逐步融合改進手段,黑色素瘤分割精度逐步改善,Dice精度基線從82.36%上升到89.55%。初始分割模型的Dice系數為82.36%,在加入了Swin Transformer后,由于捕獲上下文特征的遠程依賴關系,網絡對特征的全局信息交互能力增強,Dice上升至85.24%,后又在此基礎上做出改進,加入MFAM對條形目標進行建模,獲取更多特征信息,使得網絡對背景和條形目標鑒別能力進一步增強,Dice上升至88.28%。在加入解碼塊后,跳躍連接路徑無用特征信息被抑制,跳躍連接路徑有用特征信息被增強,實現了跳躍路徑的通道特征自注意,使得最終的Dice系數上升至89.55%。綜上,本文的各項改進均能有效提高黑色素瘤的分割精度。

表3 本模型在ISIC 2017數據集上的消融實驗Tab.3 Ablation experiments of this model on ISIC2017 dataset

3 結束語

本文提出了一種新的基于CNN和Transformer的混合結構網絡用于皮膚鏡圖像分割,該方法兼顧了CNN結構建模的局部像素相關性和Transformer建模特征的長程依賴關系,二者的巧妙結合有效強化了特征信息的表達,從而提高了分割任務中的目標信息的獲取能力。通過在ISIC 2017數據集上進行測試,與現存較為典型的模型做實驗對比,并與許多主流模型做引文對比,證明本模型具有一定的優勢,在可視化分割結果對比中,本文分割結果圖輪廓更加清晰、推理速度更快,在實際應用中具有一定的參考價值。

猜你喜歡
像素卷積病灶
趙運哲作品
像素前線之“幻影”2000
基于3D-Winograd的快速卷積算法設計及FPGA實現
Optimal UAV deployment in downlink non-orthogonal multiple access system: a two-user case
PSMA-靶向18F-DCFPyL PET/CT在腎透明細胞癌術后復發或轉移病灶診斷中的作用分析
“像素”仙人掌
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
高像素不是全部
術中超聲在顱內占位病灶切除中的應用探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合