?

相似度感知蒸餾的統一弱監督個性化聯邦圖像分割

2024-03-20 10:31潘建珊林立吳潔偉劉翼翔陳孝華林其友黃建業唐曉穎
中國圖象圖形學報 2024年3期
關鍵詞:聯邦站點像素

潘建珊,林立,吳潔偉,劉翼翔,陳孝華,林其友,黃建業,唐曉穎*

1.深圳市公共信用中心,深圳 518000;2.南方科技大學電子與電氣工程系,深圳 518000;3.香港大學電機電子工程系,香港 999077;4.南方科技大學嘉興研究院,嘉興 314000

0 引言

近年來,機器學習尤其是深度學習模型在多個計算機視覺和醫學影像分析任務中取得了先進性能并因此在許多相關領域得到廣泛應用(周傳鑫 等,2021)。然而作為一種數據驅動的方法,深度學習模型的性能在很大程度上取決于可用數據的數量及標注的質量。受限于患者數量和標注成本,單個醫療機構往往面臨著數據量不足的問題,因而聯合多家醫院的數據進行協作訓練對于獲取一個性能強大的智能分析模型意義重大,特別是對于醫學影像分割任務而言。然而,隨著隱私和安全意識的增強,許多政府和組織通過不同的法規或指南規定了對于個人或患者數據及影像的保護,限制了數據的共享(Voigt 和von dem Bussche,2017)。在這種情況下,聯邦學習(federated learning,FL)應運而生并受到研究者的廣泛關注,因其允許不同中心在無需共享或集中數據的情況下聯合訓練性能強大的全局模型(Yang 等,2019)。在常見的聯邦學習范式中,每個本地客戶端(如醫療站點)使用本地的訓練數據訓練模型,并將各個本地/局部模型參數匯聚到中心服務器進行某種方式的聚合并向各個站點廣播更新后的參數來實現協調。舉例說明,最常用的平均式聯邦學習(federated averaging,FedAvg)依據各站點樣本數量對各局部模型參數進行加權平均,在服務器端獲得單個全局模型(McMahan等,2017)。

盡管聯邦學習已經在醫學圖像分割領域取得了一定的進展,但現有工作仍大多屬于傳統的中心化聯邦范式,也即通過圖像風格遷移(Liu等,2021)、圖像模擬(Li 等,2020a)或調整聚合權重(Li 等,2019)等手段來提升單個全局模型在每個站點的魯棒性和泛化性。然而由于各站點之間數據存在著不可避免的分布差異,使用單一全局模型以適應聯邦中的所有站點是極具挑戰的,尤其是在醫學影像場景中,如圖1(a)所示。醫生的拍攝經驗、成像設備的型號、成像參數及患者的群體差異等都是導致客戶端圖像存在領域偏移的重要因素。

圖1 本文使用的數據及標注的樣例Fig.1 Representative examples of data and labels utilized((a)the two datasets constructed and used in this paper,with domain gaps across sites;(b)examples of original images with various sparse labels and full masks)

在這種背景下,研究者提出個性化聯邦學習,它為提升聯邦中每個客戶端模型的性能提供了一個有潛力的解決思路(Sun等,2023)。目前已經提出的個性化聯邦方法主要分為兩大類,第1類延續了中心化聯邦獲取中心模型的思路,并在各個站點進行局部微調以獲取更適合自身分布的個性化模型,如Wang等人(2019)提出的FT(FedAVG with fine-tuning),這類方法易受限于深度學習模型的固有弱點:災難性遺忘,即遺忘在第1階段學到的公共知識而在局部數據上過擬合。另一類更先進的解決方案通過將模型劃分為全局共享部分和個性化部分,將模型的共享部分匯聚到中心服務器進行聚合,個性化部分則保留本地訓練所得參數,從而實現模型性能的提升,例如,Li 等人(2021)將批標準化(batch normalization,BN)層作為模型個性化部分,而Collins等人(2021)則將個性化層設置在模型的預測頭部分。這些方法僅關注各站點自身的信息而忽略了站點間的相似性,不可避免地丟失了其他站點的有用知識,從而弱化了模型的表征能力。另一方面,上述方法仍需要額外的中央服務器以聚合共享部分的參數,探索一種無需中央服務器的聯邦方法對降低計算消耗、提升方法實用性起到重要意義。此外,由于個性化聯邦學習發展時間尚短,多數方法僅在簡單的分類任務上進行設計及驗證,而在相對復雜的分割任務上鮮有研究。

深度學習方法在醫學影像分割任務上受到極大關注并取得重大成功,特別是在Ronneberger 等人(2015)提出U-Net 之后。此后大多數的分割方法主要關注于提出精心設計的更為強大的網絡架構(Lin等,2021),或者各種融合醫學、拓撲、體積等先驗的損失函數(Lin等,2020)以提升分割性能。然而數據可用性和標注質量是全監督分割范式的主要限制,這對于需要專家知識和臨床經驗進行標注的醫學影像而言尤甚。弱監督學習提供了一種數據高效的解決方案(田萱 等,2019),通過使用稀疏粒度(如點、涂鴉、邊界框、多邊形塊等)的標注進行模型的監督,已經有部分工作分別基于上述各種稀疏標簽的弱監督訓練方法進行研究,并取得了良好的性能(Obukhov 等,2019;Liang 等,2022)。在聯邦中,一個更符合實際需求的設定是允許不同的中心站點使用異構形式的稀疏標簽,如圖1(b)所示,并以統一、兼容的方式進行訓練,使各站點都能從聯邦中獲得性能收益。據調研,目前針對弱監督下的個性化聯邦方法仍未有相關研究報道。

針對上述現狀,本文立足于醫學影像分割這一任務,提出了一種統一的弱監督個性化聯邦學習范式,稱為pFedWSD(unified weakly suppervised personalized federated image segmentation via similarityaware distillation)。所提出的pFedWSD 通過循環知識蒸餾為每個中心訓練個性化模型,主要包含兩個階段:不確定度感知的動態循環公共知識積累階段和分布相似度感知的個性化階段。在弱監督方面,采用了部分交叉熵、門控條件隨機場和樹能量損失函數的綜合優化目標,有效統一了各種不同稀疏標注的數據來進行訓練,可以在線得到邊緣更準確的偽標簽,從而獲得優異的分割性能,而無需額外的監督數據、交替的優化過程或耗時的后處理。

本文的主要貢獻歸納如下:1)據調研,這是第1個在各客戶端采用異構標簽設定下的弱監督醫學圖像分割個性化聯邦學習方法;2)所提出的兩階段個性化聯邦,通過不確定度感知的方式動態地排序每一輪訓練中各客戶端模型性能,并以循環知識蒸餾的形式積累公共知識,在第2 階段通過批標準化層的統計信息度量各站點之間的相似性并聚合得到各站點教師模型后進行知識蒸餾,可以有效地在無需中心站點的條件下進行所有中心的公共知識積累及自適應個性化,并且有效利用其他站點模型的有效信息;3)經過在眼底視杯(optic cup,OC)、視盤(optic disc,OD)和視網膜中心凹無血管區(foveal avascular zone,FAZ)分割任務上的定量和定性實驗,所提方法相比其他聯邦學習方法取得了更好的性能,所有中心都能從聯邦中獲益,并且取得了接近于使用全監督標簽進行集中式訓練的性能表現。

1 本文方法

1.1 問題表述

式中,L為損失函數。

1.2 個性化聯邦流程

受Chen 等人(2023)所提出的MetaFed(federated learning among federations with cyclic knowledge distillation for personalized healthcare)的啟發,pFed-WSD 同樣采用循環知識蒸餾的基本框架,而無需額外的中心服務器,在不損害數據隱私和安全的前提下實現多中心通用知識的積累并保留個性化信息,其主要框架展示在圖2(a)中。不失一般性,本文假設有5 個中心參與聯邦學習,整個訓練過程主要包含兩個階段,不確定度感知的動態知識積累階段(黃色箭頭表示)和分布相似度感知的知識蒸餾個性化階段(藍色箭頭表示)。

圖2 本文弱監督個性化聯邦學習框架圖Fig.2 Overview of the proposed pFedWSD pipeline((a)the personalized FL framework;(b)the weakly-supervised learning approach)

在通用知識積累階段,所提出框架采用循環知識蒸餾的訓練范式以完成模型對于公共知識的積累,即按一定的順序將多個中心排序并將上一個中心作為下一個中心的教師模型。不同于MetaFed 的固定順序蒸餾,為了更有效地完成知識的蒸餾并加速訓練,各中心的模型應按照當前訓練輪次的性能進行排序,即性能最高的模型作為性能次優模型的教師,以此類推,并在每個聯邦輪次中進行動態調整,以達到各中心均衡提升的目的。pFedWSD 采用在各終端驗證集上的分割性能(Dice系數)及模型不確定度進行模型性能排序,該綜合評價指標既考慮了模型的絕對分割精度,又將魯棒性/方差考慮在內,可以更全面地排序當前輪次各站點的模型性能。具體為

式中,Dci和Ui分別表示第i個站點當前訓練輪次的Dice 系數和不確定度,λu為權衡參數。受貝葉斯網絡中不確定度估計的啟發,本文方法使用蒙特卡洛丟棄法來估計不確定度(Kendall 和Gal,2017)。具體而言,在不同的加性高斯噪聲和隨機丟棄下,每幅驗證圖像通過模型隨機地向前傳遞T次。對于輸入樣本的每個像素,可以獲取一組softmax 概率向量,選擇預測的熵作為度量來近似不確定度,從而可以表述為

式中,Nva為驗證樣本的個數,H和W分別表示圖像的高和寬。經過觀察發現,不同站點模型的性能與樣本的平均不確定度之間存在一定的負向關聯。為了直觀呈現這一觀察結果,圖3 展示了不同模型對同一樣本的預測結果,并提供了相應的不確定度圖樣例。

圖3 不同模型對同一樣本的預測結果及不確定度圖樣例Fig.3 Examples of segmentation predictions and uncertainty maps from different models for the same samples((a)original images;(b)predictions;(c)uncertainty maps;(d)ground truth)

在確定循環蒸餾排序之后,本文框架使用KL(Kullback-Leibler)散度損失來拉近教師與學生模型預測級別之間的距離,實現公共知識的傳遞。具體為

式中,?i為當前站點(學生)模型,而?i-1為上一站點(教師)模型,x為當前站點的樣本。因此,訓練每個站點模型的總目標函數為

式中,λd為權衡知識蒸餾損失和當前數據監督損失之間的權重系數,Lseg為弱監督分割損失,其具體形式將在1.3節展開。需要注意的是,在第1階段的每一輪訓練中,對每個站點模型的驗證性能與教師模型的驗證性能進行對比,如教師模型在驗證集上的Dice 系數高于學生模型的Dice 系數,則模型使用式(7)進行訓練,否則僅利用本地數據進行訓練,即式(7)中λd設置為0。在這個階段中,為了保持各站點模型對其數據分布的個性化,本文方法沿用了FedBN(Li 等,2021)保留每個客戶端模型批標準化(BN)層的操作。經過一定的訓練輪數,可以獲得一個帶有各站點公共知識的通用模型?。

在第2 階段,即分布相似度感知的個性化階段,首先將?分發給各站點,并結合各站點BN層初始化各站點模型。第2 階段仍然采用循環蒸餾的方式進行本地模型的迭代訓練。為了更好地實現個性化,并從相似站點模型學習獲取有用知識,第2 階段各站點的教師模型為每個訓練輪次中各站點模型的相似度加權聚合。具體而言,每個客戶端基于本地數據計算BN層的統計量并廣播,而后各終端計算得到相似度權重矩陣M,以指導每輪訓練中各客戶端教師模型的加權聚合。在每輪訓練中,各個客戶端將模型進行廣播,并使用M聚合知識蒸餾教師模型。在實際設置中,為了穩定和提升計算效率,僅使用第1 階段中獲得的各站點BN 層參數計算M,并在第2階段的訓練中固定M。M為一個N×N矩陣,矩陣元素mij∈[0,1]表示站點i與站點j之間的相似度,其值越大,相似度越高。需要注意的是,各站點教師模型的BN 層使用本地上一輪更新模型的BN層參數,而其他層參數為

式中,L代表網絡的層數。受Lu等人(2022)的啟發,使用推土機距離(Wasserstein distance,WD)的近似值來度量兩個高斯分布之間的距離,具體為

假設每個通道都是相互獨立的,則σj,l為對角矩陣,σj,l=diag(ri,l)。因此,兩個客戶端i,j之間的距離可以表示為

di,j值越大代表分布差異越大,則相似度權重mij應越小。因此將設置為di,j的倒數,即=1/di,j,j≠i,將進行歸一化,可得

使用滑動平均方式更新ψt+1,并將mi,i設置為常數α,則

由此,可得到各個終端的教師模型的相似度聚合權重。在第2 階段,每個站點模型延續式(7)進行訓練,教師模型將在當前中心的驗證數據上得到的Dice 系數作為性能指標,當其值低于本地模型的性能指標,則λd設置為0,反之,教師模型性能越高,則λd越大,式中λ0為超參數,Dcvate和Dcvast分別表示教師模型和學生模型在驗證集上的Dice系數。經過若干輪次訓練,直至各客戶端模型收斂。

1.3 弱監督訓練范式

圖像的語義分割本質為像素級別的分類任務。最經典的弱監督分割方法將傳統交叉熵損失函數修改為部分交叉熵函數(partial cross entropy,pCE)(Tang 等,2018),也即僅在標注區域的像素點進行交叉熵損失計算。然而僅僅在稀疏標注區域上應用pCE 通常無法在靠近語義邊界的地方提供足夠的監督信號,因而在沒有監督的地方會導致差的預測結果。一種較為可行的思路是通過特定方式從已標注的監督區域向外擴展,形成未標注區域的偽標注,從而為模型訓練提供更充足的監督信號(Obukhov 等,2019;任冬偉 等,2022)。

屬于同一物體或對象的像素在不同的特征語義空間上應共享相似的模式,受樹濾波器的啟發(Song等,2019;Liang 等,2022),本文根據其結構保持的特性來建立這種成對相似性,而成對相似性與模型預測則用于為未標記的像素生成軟偽標簽,通過不斷在線訓練與修正,實現模型預測與偽標注的逐漸改進。圖2(b)中展示了pFedWSD 中采用的弱監督訓練范式,主要由一個對標注像素的分割分支和一個對未標注像素的輔助分支構成。分割分支將稀疏標注Y作為監督信號并沿用pCE 損失進行監督,輔助分支則從原始圖像I與分割模型中選定層的特征F得到一對親和性矩陣Alo和Ahi,用于精細化網絡預測P并生成軟偽標注,生成的偽標注用于監督未標注的像素區域。此外,為了進一步修正模型對于目標邊緣的預測精度,本框架采用了Obukhov 等人(2019)提出的門控條件隨機場損失(gated conditional random field loss,LgCRF)作為正則化項,用于抑制單純使用樹能量損失Ltree可能會出現的目標區域偽標注過度膨脹或坍縮的情況,總體目標函數可以表示為

式中,λt和λg為平衡各弱監督分割損失函數的權重參數。

以下給出樹能量損失Ltree的具體計算過程,首先是樹親和度計算。一幅圖像可以用無向圖G=(V,E)來表示,V表示所有像素形成的頂點集,而相鄰點之間的邊組成邊集E,在本文中采用四方位聯通建圖,即僅將每個頂點的上下左右相鄰像素連接成邊。給定相鄰像素i和j,它們之間的低階權重和高階權重分別定義為

式中,I(i) ∈R3×h×w和F(i) ∈R256×h×w分別為原始圖像像素值和特征圖值,h和w代表圖像的高和寬。F(i)由分割網絡選定層的特征經過1 × 1 卷積改變通道數得到。得到權重之后,在保證圖連通性前提下依次從E中刪除權重最大的邊以構建最小生成樹(minimum spanning tree,MST)。使 用Bor?vka(Gallager 等,1983)算法生成高階和低階MST,與Song 等人(2019)方法相似,MST 的兩個頂點之間的距離可以通過它們相連邊的權重求和來計算。頂點之間最短路徑的距離,記為超邊S,構成了MST 的距離圖,具體為

式中,i,j,k和m為頂點索引,* ∈{lo,hi}。為了捕捉頂點間的長程關系,將距離圖投射到正親和度矩陣,即

式中,σ為用于調節強度信息的超參數。給定一幅圖像,低階親和度矩陣是靜態的而高階親和度矩陣是動態的,兩個矩陣提取特征層面的成對關系,可以訓練網絡獲取互補知識。由于低階親和矩陣Alo包含邊界信息,而高階親和矩陣Ahi保持語義一致性,通過級聯濾波器模塊,將模型預測圖精細化后的結果作為軟偽標簽

式中,P為softmax層輸出的概率值圖。通過與低階、高階親和度矩陣相乘并經過濾波器F,其運算式為

式中,Ω為所有像素集合,而zi=為歸一化項。

獲得偽標注之后,樹能量損失可以表示為

式中,δ為標簽分配函數,用于測量預測概率P和偽標簽之間的距離,此處本文框架使用L1 范數損失。因此,最終樹能量損失可以表示為

式中,ΩU代表圖像未標注區域像素,帶標注區域通過監督信號由部分交叉熵損失進行優化,而無標注區域由樹能量損失進行優化,從而使每個站點模型在弱監督設定下實現在線自訓練。

此外,值得注意的是,點、涂鴉和塊標注均可以作為像素級別的稀疏類別監督信號,然而邊界框作為描述目標邊界的矩形框,需要經過一定的預處理轉化才可作為類別監督信號。根據所分割目標的形狀、尺寸等先驗,可以將其轉換為點、涂鴉、塊或者三者的混合。以本文使用數據集為例,如圖4 所示,由于已知OD、OC 為兩種類橢圓結構,因而首先計算獲得兩種目標區域邊界框的最大內接橢圓,而后對內橢圓中間挖去一個小圓區域并對兩橢圓環形區域應用骨架化操作,從而獲得兩個目標區域的骨架/涂鴉稀疏標注,同時對OD 邊界框外的背景部分進行骨架化操作得到背景類的稀疏標注,從而將邊界框標注轉換為類涂鴉標注;對于FAZ,由于其形狀較不規則,將邊界框四邊往外擴張若干像素(本文具體設置為10 像素),擴張后的矩形框的外部像素設置為背景類,同時,將目標區域邊界框的長與寬分別縮小為原本的1/3得到縮小框,將縮小框內的像素設置為目標類,由此可將邊界框轉換為塊標注。對于其他復雜結構,同樣可以根據形狀、尺寸等先驗,進行一定的預處理將框標注轉換為稀疏像素標注。

圖4 對采用邊界框標注的數據的標簽預處理流程Fig.4 Label preprocessing process for data annotated with bounding boxes

2 實驗結果與討論

2.1 實驗數據集及預處理

依據實驗和驗證需要,本文利用多個公開醫學影像分割數據集,使用自動化方法生成其對應稀疏標注(同一站點使用同一種標注形式,包含點、涂鴉、邊界框和塊4 種形式),構建兩個分別用于眼底OD/OC 分割及視網膜FAZ 分割的多領域分布弱監督分割數據集。其中,眼底OD/OC 分割數據集分別使用Drishti-GS(retinal image dataset for optic nerve head segmentatio)(Sivaswamy 等,2014)、RIM-ONE-r(open retinal image database for optic nerve evaluation)(Fumero 等,2011)、REFUGE-train(retinal fundus glaucoma challenge)、REFUGE-val(Orlando 等,2020)及Gamma(Wu 等,2023)數據集充當站點A—站點E的數據,各站點標注形式分別為涂鴉、涂鴉(另一種風格)、邊界框、點、塊,以下統稱為Fed-ODOC 數據集;對于FAZ 分割任務,本文使用了FAZID(foveal avascular zone image database)(Agarwal 等,2020)、OCTA500-3M、OCTA500-6M(Li 等,2020b)、OCTA-25K-IQA-SEG(Wang 等,2021)和ROSE(retinal OCTangiography vessel segmentation dataset)(Ma 等,2021)眼底相干光層析血管圖像(optical coherence tomography angiography,OCTA)來充當各站點數據,其標注形式分別為涂鴉、點、塊、邊界框、涂鴉(另一種風格),以下稱為Fed-FAZ 數據集。各站點數據集均遵循原有數據集的訓練集與測試集劃分,并在訓練集中按一定比例進行訓練集和驗證集的劃分。各站點圖像樣例見圖1(a),圖中同時列出了訓練及測試樣本數。對于Fed-ODOC 數據集,依據原始眼底照的掩碼標注截取視杯視盤區域并統一調整大小為384 × 384 像素;而Fed-FAZ 數據集則維持原圖像范圍并統一調整大小為256 × 256 像素。數據預處理包括將所有圖像像素值歸一化到0至1之間(數據精度使用float32),數據增強包括隨機水平與垂直翻轉圖像,隨機旋轉一定角度(范圍為-45°~45°)。

接下來說明各稀疏標注形式的自動化生成方法。給定一個全監督掩膜標注,如圖1(b)最后一列所示,可以通過形態學腐蝕變換對每一類區域進行處理得到塊標注,通過scikit-image 庫中的骨架化操作得到涂鴉標注,通過對取得的骨架做局部形變變換并隨機擦除得到另一種風格的涂鴉標注,通過計算目標區域掩膜的外接矩形得到邊界框標注,通過計算目標區域的內接矩形四邊中點作為目標類點標注,通過擴展邊界框并取四邊中點作為背景類點標注。

2.2 實驗環境與參數設置

實驗環境為一臺裝配8 塊NVIDIA GeForce RTX 3090 顯卡,系統為CentOS 7,CPU 型號為Intel Xeon Gold 6242R 的服務器。編程語言為Python,深度學習框架為PyTorch,本文框架在聯邦學習框架Flower 的基礎上進行開發。在每個站點使用原版U-Net作為分割模型架構,網絡的通道數從上到下分別為16、32、64、128 和256,并且在樹能量損失的計算中選用解碼器第2 層特征進行級聯濾波。模型的初始化方式為隨機初始化,優化器選用默認參數下的AdamW 優化器,初始學習率為10-2,并隨著迭代步數進行更新。

式中,lr表示當前學習率,lr0表示初始學習率,e為當前迭代步數,Ne為總迭代步數,其數值為3萬。在超參數選擇方面,根據內部探究性實驗經驗將λu(式(2)),λd(式(7)),α(式(13)),λ0(式(14))均設置為0.5,將式(15)中的λt和λg均設置為0.1。所設計的聯邦方法中第1 階段的訓練輪數為50,第2 階段輪數為1 000。所有對比方法均在相同的實驗環境中部署并采用相同的學習率、優化器、優化策略及模型架構,以達到盡可能公平的對比。

2.3 評判指標

本文著眼于醫學影像分割任務,因而選取了Dice 相似性系數(Dice similarity coefficient,DSC)與95%豪斯多夫距離(Hausdorff distance,HD95),以及精確率(precision,Pre)、召回率(recall,Rec)作為主要的衡量指標,其中Dice 系數表示預測結果與真實標簽圖的重疊程度,其值在[0,1]之間。而HD 表明了預測結果與真實標簽圖的最大不匹配程度。Dice的數學表達式為

HD的數學表達式為

式中,P與Y分別表示預測結果與真實標簽,p、y為預測結果與真實標簽上的像素點,HD95 與HD 類似,是基于計算P與Y中邊界點之間距離的第95 百分位數,以此消除小異常值子集的影響。較大的Dice 系數和較小的 HD 95 代表更好的分割結果。

2.4 與其他聯邦學習算法對比

將本文方法與幾個代表性聯邦學習框架進行性能比較,包括常用的傳統中心化聯邦方法(如FedAvg 與FedProx)以及較先進的個性化聯邦方法(如FT、FedBN、FedAP(federated learning with adaptive batchnorm for personalized healthcare)、FedRep、FedALA(adaptive local aggregation for personalized federated learning)等)。在實現方面,由于這些方法最初是為圖像分類任務設計,本文實驗盡量保持它們原本的設計原則并使其適應弱監督圖像分割任務。FedAvg 依據各站點樣本數量對各局部模型參數進行加權平均,在服務器端獲得單個全局模型(McMahan 等,2017);FedProx 通過在每次迭代中強制執行模型參數之間的平衡,以確保各個站點訓練的模型具有相似的參數值,從而減少數據偏差,是FedAvg 的泛化形式(Li 等,2020c)。個性化聯邦方法中,FT 為帶有 站點微調的FedAvg;FedBN 和FedRep 分別將所有的BN 層和分割頭(最后一個卷積層)作為模型的個性化部分;FedAP 通過BN 層統計各站點相似度并聚合,同時保留各站點BN 層的個性化參數;MetaFed 基于靜態(固定順序)環形知識蒸餾實現各站點的個性化;FedALA(adaptive local aggregation for personalized federated learning)(Zhang 等,2023)通過可學習的自適應局部聚合(adaptive local aggregation,ALA)模塊,針對每個客戶端上的局部目標自適應地聚合全局模型和局部模型,在每次迭代中訓練之前初始化局部模型。在對比聯邦方法中,各站點均使用原始稀疏標注進行直接監督(邊界框標注站點與本文方法同樣經過預處理為可直接監督的稀疏標注形式),而未針對弱監督進行額外的范式設計。同時本文還與基線設定(弱監督下的本地訓練)進行比較,在該設定下各站點使用各自的數據及對應的稀疏標注訓練本地分割模型。類似地,本文進行了全監督下的本地訓練、弱監督下的集中訓練及全監督下的集中訓練,其中,集中訓練指不考慮數據的隱私性及安全性,將各站點數據集中于一臺中心服務器上合并,而后進行直接訓練。

表1 和表2 顯示了Fed-ODOC 數據集的量化結果。首先,通過表1和表2的最后一列總計指標可以看到,相對于本地訓練而言,所有聯邦學習方法都可以有效提升各站點模型在各自測試數據中的整體性能。其中站點D 通過加入聯邦,性能獲得了顯著提升,其主要原因是站點D 使用了點標注這一種監督信號最弱的標注形式,加入聯邦使其可以從其他站點獲取有效知識。站點F 同樣在加入聯邦之后獲得了較大的性能提升,其原因在于該站點數據/患者的分布差異較大,僅通過單一站點的數據難以訓練一個強大、泛化性能強的深度分割模型。從方法類別上來看,個性化聯邦方法由于可以個性化模型以應對各個站點分布各異的數據,因而性能總體優于傳統的中心化聯邦框架。值得注意的是,本文個性化聯邦框架取得了最好的性能,每個站點均能在本文聯邦框架中獲益,大多數站點取得了所有聯邦方法中最優或者次優的性能,并且是唯一在視杯視盤分割的綜合性能中取得Dice 系數高于90%的方法,顯著優于集中式訓練(弱監督)的性能,并取得與本地訓練(全監督)、集中式訓練(全監督)最接近的性能。這意味著,每個站點在保護隱私的前提下,通過多站點的數據合作可以訓練得到一個性能強大的模型,并且各站點可以采用不同的稀疏標注方式,極大程度上節約了標注成本。

表1 不同聯邦學習算法及不同本地訓練、集中訓練設定下的算法在視杯視盤分割任務上的Dice系數對比Table 1 Dice scores of OD/OC segmentation from different federated learning approaches,as well as under various localized and centralized training conditions /%

在Fed-FAZ 上的結果進一步驗證了所提方法帶來的提升,如表3所示,Fed-FAZ數據更具挑戰性,存在部分站點數據較少的問題(如站點E)。此外,由于各站點存在不同的圖像質量問題和分布差異,導致在集中訓練以及部分聯邦學習方法中只有小幅度提升甚至存在性能下降,各站點間存在負向干擾。相較于本地訓練,并非所有的聯邦方法都能為各站點帶來性能提升,例如FedBN、FedAP 與MetaFed??梢钥闯?,簡單地將部分參數個性化并不能為各站點模型帶來顯著的正向效果,模型的共享部分仍容易受到其他站點由于分布差異、質量差異等因素帶來的負面干擾,同時靜態的環形知識蒸餾也容易受到不相似站點模型充當教師模型所帶來的無效知識影響。本文方法由于經過公共知識積累階段以及相似度聚合知識蒸餾階段,可以凝練積累各站點數據的相似且有效的知識,并在第2 階段為相似站點賦予更高權重,從而蒸餾得到有益知識,為差異站點賦予小權重從而減輕干擾。同樣地,本文方法可以提供與本地訓練(全監督)及集中式訓練(全監督)相競爭的性能。

表3 不同聯邦學習算法及不同本地訓練、集中訓練設定下的算法在中心凹無血管區分割任務上的性能對比Table 3 Performance comparison of different federated learning approaches,as well as under various localized and centralized training conditions on FAZ segmentation

圖5 展示了本文方法與其他聯邦方法的分割結果可視化對比。其中,CT 代表匯總集中數據訓練,weak 指數據使用稀疏標簽,full 指數據使用全監督標簽,圖中數值表示Dice 系數(%)。得益于所提出的個性化方法及更優的弱監督損失,本文方法在目標區域的邊緣精確度、拓撲結構保持以及離群值抑制等方面都取得了更好的性能表現。

圖5 分割結果對比Fig.5 Visualization of representative segmentation results from pFedWSD and other federated learning approach((a)original images;(b)FedAvg;(c)FT;(d)FedProx;(e)FedBN;(f)FedAP;(g)FedRep;(h)ours;(i)CT(weak);(j)CT(full);(k)ground truth)

2.5 消融實驗

為了證明所提出的弱監督損失以及聯邦范式的有效性,本文在Fed-ODOC 數據集上進行了5項關鍵組件的消融實驗,分別是弱監督損失中的樹能量損失及門控條件隨機場損失,即分別對兩項弱監督損失、pFedWSD 中的兩個階段、pFedWSD 第2 階段中的相似度感知權重(替換為FedAvg 中的樣本權重系數)進行消融,結果如表4 所示??梢钥闯?,任何一個損失項的消除均導致一定程度的分割性能下降;導致模型在預測中邊緣精確度下降或離散預測區域增加。隨后進行pFedWSD 框架的兩個階段——不確定度感知的動態循環公共知識積累階段(無公共知識積累階段)和分布相似度感知個性化階段(無個性化階段)的消融??梢钥闯?,隨著公共知識積累階段的去除,各站點綜合性能大幅下降,表明對各站點知識進行動態循環蒸餾可以使得各站點模型保留各中心訓練數據所得到的有效知識,并摒棄冗余知識,對最終模型性能有著重要意義。個性化階段的消除造成了較小程度的性能下降,表明即使僅使用公共知識積累階段的模型,也可以取得較好的分割結果。即便如此,個性化階段仍然為各站點模型的綜合性能在Dice方面提升了約2.2%。此外,將個性化階段的教師模型采用的相似度感知聚合權重消除,替換為FedAvg 中基于樣本占比的權重,各站點模型無法高效地從教師模型中學習相似站點的有效知識,并且容易受到不相似站點帶來的負面影響,因此性能存在較大下降。

本文還通過對各站點依次消融來分析在pFed-WSD 框架下各站點數據對整個聯邦的貢獻程度。同時,隨著各站點的依次消融,可以分析各站點之間數據的相似程度及相互之間的影響。在pFedWSD框架下,無站點A、無站點B、無站點C、無站點D、無站點E與全站點設置下的各站點綜合平均Dice系數依次為88.17%、88.63%、88.19%、87.98%、89.14%和90.38%,豪斯多夫距離依次為13.18、12.59、11.562、12.42、11.74和9.63。從圖6的詳細結果展示中可以看出,各站點均在全站點設定中取得最優性能,表明了盡管各中心存在數據分布差異,但所有站點均能從盡可能多的聯邦站點中學習到更好的個性化模型。對于站點A 而言,站點D 退出時取得了最低的性能,表明兩中心間數據相似度較高,能有效相互促進性能;同樣地,對于站點D,站點A 的退出導致了最大的性能下降。類似地,可以看出站點E與其他站點數據分布差距較大,隨著站點E的退出,其余多數站點取得了在4 個站點聯邦條件下最優或次優的性能。實際中,站點E可能要提供更多的樣本或更高質量的標注形式以提升該站點對聯邦的貢獻程度。與之相反,站點D的退出導致其余站點的綜合性能較大跌幅,這可能是因為站點D貢獻著所有中心中最大的樣本量,其他的中心應允許其使用更為稀疏(寬松)、高效的標注方式。

3 結論

針對醫學影像全監督分割標簽標注成本高、聯邦學習中可能出現的數據分布差異以及標簽異構等問題,本文提出了一種弱監督個性化聯邦分割方法,通過循環知識蒸餾為每個中心訓練個性化模型,主要包含兩個階段:不確定度感知的動態循環公共知識積累階段和分布相似度感知的個性化階段。

通過在視網膜FAZ 及眼底OD 和OC 兩個分割任務上的大量定性和定量對比實驗,所提出的pFed-WSD 在與其他中心式聯邦學習和先進的個性化聯邦學習方法的對比中取得了更優的性能,可以提取各站點的有效公共信息并進行自適應個性化,在各站點均是不同形式弱監督稀疏標簽的設定下,取得了接近于使用全監督標簽進行本地訓練甚至集中訓練的性能。但由于在兩個階段中均需要進行多個教師模型的計算與通訊,本文方法存在通訊和計算開銷上的短板。如何降低上述開銷以及引入例如提示學習等通用大模型訓練范式,將數據分布與標注稀疏程度作為模型的額外條件輸入,同時促進模型的泛化性能和針對具體數據分布的自適應個性化性能是今后的主要研究方向。

猜你喜歡
聯邦站點像素
趙運哲作品
像素前線之“幻影”2000
一“炮”而紅 音聯邦SVSound 2000 Pro品鑒會完滿舉行
“像素”仙人掌
303A深圳市音聯邦電氣有限公司
基于Web站點的SQL注入分析與防范
2017~2018年冬季西北地區某站點流感流行特征分析
首屆歐洲自行車共享站點協商會召開
怕被人認出
高像素不是全部
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合