?

結合局部全局特征與多尺度交互的三維多器官分割網絡

2024-03-20 10:31柴靜雯李安康張浩馬泳梅曉光馬佳義
中國圖象圖形學報 2024年3期
關鍵詞:集上編碼器器官

柴靜雯,李安康,張浩,馬泳,梅曉光,馬佳義

武漢大學電子信息學院,武漢 430072

0 引言

中國癌癥病患人數和死亡人數逐年上升,已成為主要死因之一。高度適形放射治療是常用的癌癥治療方法,該方法精準匹配輻射外形和標靶器官外形,但這非常依賴于對癌組織和周邊多個危及器官(organ at risk,OAR)解剖結構的精確分割(盛榮軍等,2023)。

三維醫學圖像多器官分割是指將三維醫學圖像中多個不同的器官或者病灶區域劃分出來,是醫學圖像分析領域中關鍵的技術之一。深度學習因其強大的特征表示能力,近年來大量應用于醫學圖像的臨床研究(陳弘揚 等,2021),而基于深度學習的三維醫學圖像多器官分割方法具有耗時短、水平一致性高的優點,已經成為該領域中的主要研究方向(周濤 等,2021)。視覺Transformer(vision Transformer,ViT)(Dosovitskiy 等,2021)因突破了卷積神經網絡(convolutional neural network,CNN)局部視野的固有限制而成為最新的研究熱點,大量基于CNN 和ViT 的深度神經網絡模型被開發出來(Shamshad 等,2023),并獲得當時的最佳結果。然而,現有三維醫學圖像分割方法常忽略多尺度架構(Hatamizadeh 等,2022b)或是通過限制ViT 的注意力計算范圍來實現多尺度(Cao 等,2023),因此喪失了ViT 在長距離關聯提取上的優勢;此外,現有方法中局部和全局的特征提取器往往在不同尺度上串行連接,而并未在同尺度中并行執行(Huang 等,2023),使得局部特征和全局特征的交互受限。

為使得網絡能夠在不同尺度間進行信息交互,本文提出LoGoF(local-global-features fusion)編碼器,并在其基礎上構建端到端三維醫學圖像多器官分割網絡M0;此外,引入多尺度交互(multi-scale interaction,MSI)模塊和注意力指導(attention guidance,AG)結構,為M0 在不同尺度特征中引入空間先驗,最終提出用于三維醫學圖像多器官分割的LoGoFUNet(local-global-features fusion UNet)網絡。經過定性和定量分析,該方法在3 個公開數據集上的分割性能均優于其他二維或三維先進算法,且泛化性能較好,最后本文開展了充分的消融實驗,以證明LoGoFUNet模塊設計的合理性。

1 方 法

1.1 LoGoF編碼器

LoGoF 編碼器旨在于同一特征尺度下同時捕獲三維醫學圖像的局部細節和全局關聯,因此采用局部和全局的雙分支結構來提取特征,下面本文將介紹LoGoF編碼器的構建思路。

1.1.1 局部特征提取手段

幽靈卷積(Han 等,2020)認為自然圖像卷積過程中部分特征圖的產生過程可以用相對簡單的線性映射完成,由此可在不影響特征提取性能的前提下降低性能消耗,因此本文希望引入幽靈卷積作為低耗的局部特征提取器。標準幽靈卷積的特征提取過程可以簡單表述為

式中,Iin表示輸入特征,Iout表示輸出的幽靈卷積特征,*表示卷積操作,fst和fsp分別表示標準卷積和深度可分離卷積,⊕表示通道維度上的拼接操作,BN()表示批歸一化(batch normalization BN),ReLU表示ReLU(rectified linear unit)函數。

為使得幽靈卷積在局部特征提取上具有更好的性能,需對其進行一些改進:首先,由于景深信息的缺失,相比自然圖像,醫學圖像特征圖之間具備更多的線性映射關系,因此本文將標準幽靈卷積中fst和fsp中的輸出通道數從1∶1 調整為1∶3;其次,將幽靈卷積中所有的BN 轉換為層歸一化(layer normalization,LN),這是因為已有工作(Liu 等,2022)證明BN可能對模型的泛化性產生不利影響;最后,將幽靈卷積中所有的ReLU 替換為GeLU(Gaussian error linear unit),以解決ReLU 在負梯度下突然歸零的問題。綜上,LoGoF 模塊局部分支采用的改進幽靈卷積運算可表示為

式中,Ilo表示幽靈卷積的局部特征圖輸出,該模塊的局部特征提取方式如圖 1所示。

1.1.2 全局特征提取手段

標準ViT 通過密集的自注意力運算來獲取圖像的長距離依賴關系,該自注意力運算可表示為

式中,H、W和D表示每個方向上的patch 數量,Iabc表示在任意位置(a,b,c)上(a∈{1,…,H},b∈{1,…,W},c∈{1,…,D})的自注意力,qabc表示在任意位置(a,b,c)上的查詢向量,khwd和vhwd表示在任意位置(h,w,d)上的鍵向量和值向量。位置編碼pq、pk和pv是可學習的表示查詢向量的維度,用于收縮數據范圍。需要注意的是,為方便表述,以上闡述忽略自注意力的多頭特性。

ViT 自注意力計算中的親和度計算需要消耗很大的計算資源,然而在三維醫學圖像分割中,不同個體的同一個分割目標相對位置基本固定,因而常規ViT 的注意力運算在醫學分割中具有較大的資源冗余。受到Al-Shabi 等人(2021)的啟發,本文將ViT的全局自注意力計算按照三維軸向拆分為3 個低計算復雜度的面自注意力計算。以垂直于H(height)軸的面WD(width-depth)上的自注意力計算為例,計算可表示為

類似ViT 中的標準Transformer 塊(如圖 2(a)),利用3 個面自注意力運算來構建一個FTB(facial Transformer block),其結構如圖 2(b)所示。圖中FTB運算可表示為

式 中,Iin表 示FTB 結構的輸入,FSA_WD(?)、FSA_HD(?)和FSA_HW(?)分別表示WD 面、HD 面和HW 面上的自注意力運算函數、和分別表示各個面自注意力模塊的輸入和輸出相加的結果,MSA(·)表示ViT 中的多頭自注意力模塊。MLP(·)表示ViT 中的多層感知機層。經過LoGoF 模塊的全局分支,可得到全局特征圖Igo。

1.1.3 特征增強和融合

經過LoGoF 模塊,局部特征和全局特征被單獨提取,首先對其施加空間注意力(Woo等,2018)和通道注意力(Hu 等,2018),以充分發揮其優勢。經過注意力增強后,局部和全局特征間已經存在較大差別,這種差異會阻礙神經網絡的特征識別。為平滑并融合兩種特征,提出了一種特征融合模塊(feature fusion module,FFM),如圖3所示。

該模塊的主要思想是通過不同分支間交叉相乘來增強差異特征的學習。這里假設將通過通道注意力增強的全局特征記為,通過空間注意力增強的局部特征記為,之后通過提取各自分支的主要特征并與其他分支的特征權重進行交叉相乘,從而得到經過融合的全局特征和局部特征,最終通過拼接操作得到特征融合模塊的輸出If,具體為

1.1.4 構建特征編碼器

本節構造局部全局特征融合(LoGoF)編碼器。LoGoF 模塊的整體結構如圖4(a)所示,全局分支采用FTB 運算并對其輸出施加通道注意力,局部分支采用三維幽靈卷積操作并對其輸出施加空間注意力。經過特征增強后,網絡將全局特征和局部特征一同饋入特征融合模塊進行特征融合,得到LoGoF模塊的輸出。通過將LoGoF 模塊的兩個分支拆分開來,可形成兩個單獨可用的編碼器Lo 模塊和Go 模塊,如圖4(b)(c)所示。由于特征類型單一,這些編碼器中均不包含特征融合模塊。

1.2 多尺度網絡M0

基于1.1.4 節提出的3 種特征編碼器來構建多尺度的三維醫學圖像多器官分割網絡M0。為充分利用卷積濾波器的細節捕獲能力和ViT 的全局特征關聯捕獲能力,本文將M0網絡設計如圖5所示。

在網絡頂層(編碼器1),本文仍采用一個標準3 × 3 × 3 卷積濾波器,先將圖像映射到隱藏維度并最大程度地從原圖提取細節;在淺層僅設置一個Lo編碼器2,以最高的特征分辨率來提取目標細節;在中間層設置LoGoF 編碼器3 和LoGoF 編碼器4,充分利用圖像局部和全局的融合信息;在深層僅設置一個Go編碼器5,以獲取網絡深層最抽象的語義特征。

1.3 三維醫學圖像多器官分割網絡LoGoFUNet

1.3.1 多尺度交互(MSI)

為了建立多尺度特征之間的信息交互,本文針對M0 網絡設計了一個多尺度交互模塊如圖6 所示。其輸入為M0 中4 層編碼器輸出的不同尺度的特征圖I2,I3,I4,I5。首先,各個尺度下的特征圖將分別按照4 × 4 × 4 和2 × 2 × 2 的標準切分為細粒度和粗粒度的patch,之后每一個灰色框內部的所有patch 將進行信息交互。在圖6中,patch 塊中不同的顏色表示該patch 塊在原圖像的所屬部分。經過自注意力交互后,網絡可將細粒度和粗粒度的patch添加到原始特征圖中,獲得帶多層交互的特征輸出

為了更直觀地展示多尺度交互模塊的作用,本文可視化展示了Synapse 數據集中的肝臟部位在多尺度交互中的情況,如圖7所示。

以綠色遮罩部分的圖像塊為例,粗粒度切分將肝臟某個位置切分出來,而細粒度切分對肝臟在該位置進行了更精細的切分。經過多尺度交互后,不同尺度的輪廓和細節信息均產生了交互,因而可以更好地定位和分割器官。

1.3.2 注意力指導結構(AG)

在M0網絡中,淺層大尺度特征圖包含豐富的細節信息fd、較少的語義信息fs和細粒度的全局關聯信息fg,而深層小尺度特征圖具有較少的細節信息fdd、較多的語義信息fss以及粗粒度的全局關聯信息fgg。為了保持多尺度下對同一器官的注意力,可以利用在fd上學習到的空間注意力來指導fdd和fss的空間注意力,而為了借助對上層細部間關聯的注意力來提升下層粗部間關系的提取效果,可以利用在fg上學習到的通道注意力來指導fgg的通道注意力。具體來說,本文在M0 網絡的編碼器2—編碼器5 上應用AG 結構,如圖8 所示。圖中藍色箭頭和黃色箭頭分別代表通道AG 函數和空間AG 函數。由于編碼器2只有局部分支且編碼器5 只有全局分支,因此其AG路徑只有一條。

1.3.3 LoGoFUNet

將MSI 模塊和AG 結構引入M0 網絡之后,即可得到三維醫學圖像多器官分割網絡LoGoFUNet,其總體結構如圖9所示。

2 實 驗

2.1 數據集劃分

為了驗證LoGoFUNet 的有效性,本文在3 種公開數據集上進行了驗證。

第1 個數據集是Synapse 腹部多器官分割數據集,該數據集包含30 幅腹部CT(computer tomography)掃描圖像以及它們的分割金標準,本文僅在目前最佳方法(state of the art,SOTA)常用的8 個器官上評估本文的方法,即主動脈、膽囊、左腎、右腎、肝臟、胰腺、脾臟和胃。為防止過擬合,實驗隨機抽取12 幅作為測試樣本,剩余18 幅進行10 次增廣得到18+18 × 10共198幅訓練樣本。

第2 個數據集是SegTHOR(segmentation of thoracic organ at risk)(Lambert 等,2020)胸部多器官分割數據集,該數據集包含40 幅胸部CT 掃描圖像以及它們的分割金標準,本文在金標準包含的4 個器官上評估了本文的方法,這些器官是:食管、心臟、氣管和主動脈。為防止過擬合,實驗隨機抽取10 幅作為測試樣本,剩余30 幅進行6 次增廣得到30+30 ×6共210幅訓練樣本。

第3 個數據集是ACDC(automatic cardiac diagnosis challenge)挑戰賽數據集,其中包含100 幅MRI(magnetic resonance imaging)掃描圖像以及它們的分割金標準,金標準中包含3 個器官,即左心室、右心室和心肌。類似地,本文按照隨機生成的列表對數據集進行劃分,且不進行增廣,由于每個樣本包含兩幅CT 圖像,因而訓練、驗證和測試樣本數量分別為140幅、20幅和40幅。

2.2 損失函數

醫學圖像分割任務中,Dice損失函數(Dice loss)是常用的損失函數,相比交叉熵損失函數(cross entropy loss,CELoss),Dice 損失函數從整體目標形態上監督網絡分割質量,相比交叉熵損失函數更易優化,收斂更快。然而,在處理多目標分割任務時,網絡對部分像素的錯誤預測會令整個Dice 損失值產生大幅度的變化,導致訓練不穩定。因此,本文使用Dice 損失和交叉熵損失結合的加權損失函數,具體為

式中,Ldi(?)和Lce(?)分別表示Dice 損失函數和交叉熵損失函數,C表示需要分割的器官總類別數,V表示像素總數,和Yv,c分別表示c類別器官中的像素v的預測值和金標準值,α,β為可學習的參數。

2.3 實施細節和評估指標

對于Synapse 數據集,本文定量對比了一些2D方法:V-Net(Milletari 等,2016)、DARR(domain adaptive relational reasoning)(Fu 等,2020)、R50 U-Net、U-Net(Ronneberger 等,2015)、R50 Att-UNet、Att-UNet(Oktay 等,2018)和R50 ViT,定量和定性對比了另一些2D 方法TransUNet(Chen 等,2021)、SwinUNet(Cao 等,2023)、AFTer-UNet(Yan 等,2022)、MISSFormer(Huang 等,2023)、ScaleFormer(Huang等,2023)和3D 方 法UNETR(UNet Transformers)(Hatamizadeh 等,2022b)、SwinUNETR(Hatamizadeh等,2022a)。

對于SegTHOR 數據集,本文定量和定性對比了一 些2D 方 法TransUNet、SwinUNet、AFTer-UNet、MISSFormer、ScaleFormer 和3D 方 法UNETR、SwinUNETR。

對于ACDC 數據集,本文定量對比了一些2D 方法R50 U-Net、R50 Att-UNet、R50 ViT,定量和定性對比了另一些2D 方 法TransUNet、SwinUNet、AFTer-UNet、MISSFormer、ScaleFormer 和3D 方法UNETR、SwinUNETR。

在所有數據集上,LoGoFUNet 采用相同的訓練設置:訓練次數600 輪,批大小設置為1,采用AdamW 優化器進行參數更新,權重衰減設置為1 ×10-5,學習率初始值設置為1 × 10-4,并采用線性預熱和余弦退火算法進行學習率更新,最后,采用Dice相似度系數(Dice similarity cefficient,DSC)和豪斯多夫距離(Hausdorff distance 95,HD95)評估實驗結果。

2.4 公開數據集實驗結果

2.4.1 Synapse數據集

Synapse 數據集上的實驗結果如表1 所示。其中,“*”表示該方法重新訓練的結果,其他數據則來源于其原論文,DSC 指標越大表示方法性能越好,HD95 指標越小表示方法性能越好。由表1 可知,在Synapse 數據集上,LoGoFUNet 相比于其他的SOTA方法,表現出最佳平均DSC 和最低的平均HD95,說明LoGoFUNet 在大小不一的整體型器官、長條形器官和片狀器官的組合圖像中能展現出最優秀的定位和分割水平。

表1 Synapse數據集對比實驗結果Table 1 Comparison experiment results on Synapse dataset

為進行直觀對比,本文從測試樣本29 中抽取3個切片并形成對照組1、2和3,其分割結果的3D對照如圖10 所示。從單個器官上來看,LoGoFUNet 在其中4 種器官中表現出最佳的平均DSC 水平,分別是肝臟(liver)、胰腺(pancreas)、脾臟(spleen)和胃(stomach)。值得注意的是,LoGoFUNet 在分割胰腺上的DSC(74.95%)大幅度超出其他對比方法中的最佳DSC(65.57%)。觀察并對比對照組3中的紅色方框可以發現,LoGoFUNet 能在保留胰腺上部斷裂部分的同時盡可能捕獲全局和局部信息,因而獲得了最佳的胰腺器官分割效果。此外,LoGoFUNet 具備多尺度架構,既可以通過大視野合理利用周圍器官的位置關系來定位小器官,又可以通過小視野捕獲器官的細節,因此在胃和脾臟這種小尺寸的整體型器官上也獲得了最佳的分割性能。在3D 對照組中,LoGoFUNet 的分割結果明顯比其他2D 方法具備更平滑的邊緣,也比其他3D 方法UNETR 和SwinUNETR具備更好的分割細節。

圖1 局部特征提取方式Fig.1 Local feature extraction

圖2 Transformer模塊和FTB模塊Fig.2 Transformer block and FTB block((a)Transformer block;(b)FTB block)

圖3 特征融合模塊Fig.3 Feature fusion module

圖4 LoGoF模塊、Lo模塊和Go模塊Fig.4 LoGoF module,Lo module and Go module((a)LoGoF module;(b)Lo module;(c)Go module)

圖5 M0網絡總體結構Fig.5 Overall structure of M0 model

圖6 多尺度交互模塊Fig.6 Multi-scale interaction module

圖7 多尺度交互可視化Fig.7 Visulization of the multi-scale interaction

圖8 注意力指導結構Fig.8 Attention guidance structure

圖9 LoGoFUNet網絡總體結構Fig.9 Overall structure of the LoGoFUNet

圖10 Synapse數據集定性對比結果Fig.10 Qualitative comparison results of Synapse dataset

2.4.2 SegTHOR數據集

表2 展示了SegTHOR 數據集上的實驗結果,觀察可知,相比于其他方法,LoGoFUNet 在單個器官的平均分割結果指標上均優于對比方法,說明LoGo-FUNet 在整體型器官和長條形器官的組合圖像中能完成精確定位和分割。為進行直觀對比,本文從測試樣本12中抽取3個切片并形成對照組1、2和3,其分割結果的3D對照如圖11所示。

表2 SegTHOR數據集對比實驗結果Table 2 Comparison experiment results on SegTHOR dataset

圖11 SegTHOR數據集定性對比結果Fig.11 Qualitative comparison results of SegTHOR dataset

對照組1 展示的是位于主動脈上部邊緣處的切片,觀察可知對照中的2D 方法邊緣鋸齒感嚴重,且所有對比方法都存在一定程度的誤分割,而LoGo-FUNet具備最精確的分割結果。

對照組2 展示的是氣管底部邊緣處的切片,在金標準中,氣管底部存在分叉結構,因此該橫截面切片中的分割結果應當存在分離的部分。由于心臟頂部和氣管底部在垂直方向上重疊且跨越了周圍的切片,UNETR 和SwinUNet 等方法均出現了誤分割情況,只有LoGoFUNet 正確分割了該位置,并和金標準非常接近。此外,在氣管底部位置處,食管受到了壓縮,對照組2 中只有LoGoFUNet 的結果最符合金標準,其他方法分割的食管均被壓得很扁。這也說明LoGoFUNet 能很好地捕捉多個長條形器官之間的位置關系,因而在氣管、食管上分割性能較好。

對照組3 展示的是位于心臟器官上部邊緣的切片,LoGoFUNet 最精確地捕獲了心臟和周圍器官的位置關系,而其他的網絡對于食管和心臟的定位都過近。UNETR 雖然邊緣平滑,但是由于不具備多尺度特征,對目標細節的分割性能明顯較差,導致了相對較差的DSC 指標。SwinUNETR 具備多尺度結構,但無法很好地捕捉到心臟上下邊緣范圍和表面細節。相比之下LoGoFUNet的心臟分割結果具備光滑的邊緣和接近金標準的上下部位置,展現出了最好的分割效果。

2.4.3 ACDC數據集

ACDC 數據集上的實驗結果如表3 所示。由表3 可知,LoGoFUNet 相比其他的方法,具有最高的平均DSC和最低的平均HD95,且在心肌和右心室器官上表現出最佳的DSC 結果。從網絡結構來看,LoGoFUNet 具備細粒度的面自注意力結構,信息可以在矢狀面和冠狀面上的細粒度柱狀token 間自由流通,因此在該數據集上的性能表現大大超越了其他3D 網絡。為突出LoGoFUNet 的細粒度面自注意力的優勢,本文選擇性地可視化了ACDC 數據集中樣本09、樣本29 和樣本46 的frame01。從可視化圖12 中可以看出,LoGoFUNet 在量化性能上超越了對比方法的同時,其可視化結果的邊緣細節也是最接近金標準的。

表3 ACDC數據集對比實驗結果Table 3 Comparison experiment results on ACDC dataset

圖12 ACDC數據集定性對比結果Fig.12 Qualitative comparison results of ACDC dataset

2.5 消融實驗

2.5.1 M0網絡設計

為探究LoGoFUNet中各個模塊對網絡性能的影響,在Synapse數據集上開展了消融實驗,并在M0的基礎上衍生了3個變體M1,M2和M3。M1將M0中的幽靈卷積替換為標準3 × 3 × 3卷積結構;M2將M0中的面自注意力替換為標準ViT自注意力;M3將編碼器2—編碼器5中的Lo模塊和Go模塊替換為LoGoF模塊。

表4 展示了該消融實驗的結果。其中,TSD(time spent during 100 epochs)表示訓練100 輪次花費的時間,PC(parameters count)表示網絡總參數量。由表4 可知,4 種網絡最終的平均DSC 差別并不大,但M1、M2 和M3 相比M0,訓練100 個epoch 花費的時間分別增加了約10.41%、12.25%和13.63%,總參數量增加了約9.03%、33.53%和35.47%。這表明LoGoF 模塊已經基本彌補了局部和全局分支中采用“廉價替代”所帶來的性能衰減,在不降低分割性能的前提下,有效減少了網絡的參數量。

表4 網絡設計對M0實驗結果的影響Table 4 The impact on results of M0 design

2.5.2 多尺度交互和注意力指導結構

為探究多尺度交互和注意力指導的有效性,在3個數據集上展開消融實驗。從M0上衍生出3個變體模型M6、M7 和M8,M6 代表僅添加注意力指導的M0,M7 代表僅添加多尺度交互的M0,M8 代表兩者都添加的M0。在3 個數據集上的實驗結果如表5—表7 所示。從表中可以看出,M6 通過添加注意力指導,在Synapse、SegTHOR 和ACDC 測試集上的平均DSC 相比M0 分別提升了0.45%、0.19%和0.07%,M7 通過添加多尺度交互模塊,在3 個測試集上的平均DSC 相 比M0 分別提升了2.22%、1.52% 和0.76%,而添加兩者之后的M8,在3個測試集上的平均DSC 相 比M0 分別提升了3.15%、1.73% 和1.68%。折線圖13 展示了不同模型在3 個數據集上的DSC指標(×100)的直觀對比。

表5 不同消融模型在Synapse數據集上的性能對比Table 5 The performance comparison of different ablation models on Synapse dataset

表6 不同消融模型在SegTHOR數據集上的性能對比Table 6 The performance comparison of different ablation models on SegTHOR dataset

表7 不同消融模型在ACDC數據集上的性能對比Table 7 The performance comparison of different ablation models on the ACDC dataset

圖13 消融實驗的數據集DSC值對比Fig.13 The DSC comparison of ablation experiments

該結果說明,多尺度交互模塊和注意力指導結構均對網絡分割性能有所提升,且前者帶來的提升比后者更顯著。

3 結論

為進一步提升三維醫學圖像多器官分割的性能,本文提出LoGoF編碼器,用于在同尺度下用可接受的計算復雜度來融合CNN 和ViT 特征,并基于LoGoF 編碼器構建出三維醫學圖像分割網絡M0,該網絡在不犧牲ViT 運算范圍的前提下實現了網絡的多尺度架構。此外,將多尺度交互模塊和注意力指導結構引入M0網絡,最終構建了LoGoFUNet。該網絡繼承M0的多尺度架構,能夠在三維數據下直接建立多尺度特征之間的信息交互,從而有效提升多器官分割性能。

為驗證LoGoFUNet在多器官分割任務上的有效性,本文選擇Synapse、SegTHOR和ACDC 3個數據集進行實驗,并對比多種2D 和3D 的醫學圖像分割方法。實驗結果表明,相比于表現第2 的模型,LoGo-FUNet 在Synapse 和SegTHOR 數據集上的DSC 指標分別提高2.94% 和4.93%,HD95 指標分別下降8.55 和2.45,表明多器官分割性能的整體改善。盡管實驗結果較為樂觀,但LoGoFUNet 具有較高的計算復雜度和內存消耗,在訓練過程中,即使將批大小設置為1,內存也幾乎被占滿(接近24 GB)。本文已嘗試過使用更激進的軸向自注意力來替代面自注意力運算,盡管在減少參數量的同時基本維持了現有分割效果,但還不足以完全消解如此龐大的模型體量和隨之帶來的較為緩慢的推理速度。因此通過更合理的設計提升推理速度,降低內存消耗是未來的一個研究方向。另外,由于內存限制,本文提出的多尺度交互結構僅在兩個粒度的token 之間進行信息交互,這可能會影響到分割目標尺度差異更大的某些特定數據集上的分割性能,因而引入更多粒度之間的特征交互以及通過其他手段消解由此帶來的額外計算量也是未來的一個研究方向。

猜你喜歡
集上編碼器器官
這些器官,竟然是你身上的進化殘留
器官也有保護罩
類器官
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
基于FPGA的同步機軸角編碼器
復扇形指標集上的分布混沌
基于PRBS檢測的8B/IOB編碼器設計
人體最“沒用”的器官
JESD204B接口協議中的8B10B編碼器設計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合