?

結合擴張金字塔的腦部醫學圖像融合

2024-04-01 06:41馬為民鄭茜穎
電視技術 2024年1期
關鍵詞:金字塔特征提取損失

馬為民,鄭茜穎

(福州大學 物理與信息工程學院,福建 福州 350108)

0 引言

目前,醫學影像在臨床診斷的作用越來越突出。不同模態的醫學圖像提供不同的信息[1]。綜合利用多模態信息,實現多模態圖像醫學融合,加強各個模態之間的信息互補性,在臨床上具有重要的意義[2]。近年來,許多基于深度學習的方法已經被證明是成功的圖像融合方法[3-5]。2017 年,LIU Y 等[6]提出了基于卷積神經網絡(Convolutional Neural Networks,CNN)的圖像融合網絡,利用圖像補丁對和模糊版本的深度神經網絡映射,實現了源圖像和焦點圖像的直接映射。然而,由于訓練策略的局限性,這種方法適用的場景局限在多焦點圖像。為了克服這一缺點,LI H 等提出Dense Fuse[7],一種新型的基于密集型自動編碼器的網絡,整體結構由編碼器、融合器和解碼器3 部分組成。在訓練階段,融合器被丟棄,變成一個自動編碼器網絡,用于提取源圖像的特征和重構解碼源圖像的特征;在測試階段,加入融合器后,對融合后的圖像進行重構解碼。MA J 等人[8]將生成對抗網絡(Generative Adversarial Networks,GAN)結構引入圖像融合,提出了Fusion GAN,在生成器和鑒別器之間建立對抗游戲,在對抗策略下生成融合圖像。HUANG J 等人[9]提出了一種多生成器和多鑒別器的條件對抗網絡MGMDcGAN。兩種cGAN 相互配合,使得該網絡呈現出更好的視覺效果。FU J 等引入殘差金字塔注意力結構MSPRAM[10],結合了剩余網絡和金字塔注意力的優點,提取比單一剩余注意力更多的信息或者把金字塔注意力機制看成層數的增加并保持更好的深層次特征和表達能力;另一個網絡結構MSDRA[11]利用雙殘差注意網絡同時注意和獲得重要的細節特征,在融合中避免網絡梯度消失和爆炸。FU J 等人提出級聯密集殘差網絡CDRNet[12],利用多尺度密集網絡和殘差網絡作為基本結構,通過三級級聯得到多級融合網絡。多模態醫學圖像通過網絡的每一級訓練,得到輸出融合圖像逐步增強,融合圖像越來越清晰。

盡管深度學習用于醫學融合取得了一定的成果,但仍然存在著融合圖像模糊、邊緣信息不豐富以及大量細節丟失等問題。為了解決這些問題,本文提出了基于擴張金字塔特征提取的圖像融合算法,網絡整體繼承以前的成果,由特征提取器、特征融合器和特征重構器3 個部分構成。特征提取器使用了由擴張金字塔特征提取組成的算法,通過淺層特征和深層特征的結合,增強了圖像的特征提取能力。特征融合器中,本文提出了改進的功能能量比(Functional Energy Ratio,FER)特征融合策略,提高了特征融合效果。特征重構器由4 層卷積構成,把高維特征逐步降低并最終輸出融合圖像。為了更好地完成優化任務,本文提出基于L2損失和VGG-16 的聯合損失函數。通過大量實驗表明,本文方法相比當前的融合算法有更優的性能。

1 本文算法

本文算法的整體框架包括4 個部分,如圖1 所示。第一,擴張金字塔特征提取模塊,結合金字塔特征提取的優點,加入擴張層,進一步提升特征提取能力,實現圖像淺層和深層次特征的結合。第二,融合策略模塊,完成深層次特征圖像融合工作,設計了改進FER 融合策略。第三,特征重構模塊,將融合后的高維特征轉化為輸出圖像。第四,混合損失函數,在L2損失函數基礎上加入基于VGG-16 的網絡損失函數,進一步提高本文算法的性能。

圖1 算法總體框架

1.1 擴張金字塔特征提取

本文的擴張金字塔特征提取是基于金字塔注意力機制來設計的[13]。本文中一個特征金字塔注意力機制通過實現金字塔網絡的U 形結構,使用了1 個3×3 卷積、2 個3×3 卷積和3 個3×3 卷積并融合3 種不同尺度的特征信息,更加準確地表達鄰域尺度的上下文特征;又引入了下采樣再上采樣的軟注意力操作使得原始特征與金字塔注意力相乘,防止因為層數的增加而丟失原始的信息,從而進一步提高模型性能。1 個金字塔注意力機制的數學表達式為

式中:Q(x)為輸出特征,x為輸入特征,V(x)是下采樣上采樣的軟注意力函數,P(x)是金字塔型網絡,即1 個3×3 卷積、2 個3×3 卷積和3 個3×3 卷積。

本文中,金字塔模型由3 個金字塔注意力機制組成,通過3 次下采樣在經過金字塔注意力機制后再經過3 次上采樣構成了金字塔模型。金字塔模型的基本結構如圖2所示。然而,金字塔模型的下采樣操作和層數的增加可能會丟失信息和圖像中的精細細節。為了解決這個問題,本文分別利用1、3、5 這3 種不同的擴張卷積在淺層的圖像特征上進行多尺度的特征提取,利用3 種不同的擴張卷積得到3 種不同的感受野,進一步提高淺層特征的利用,加強圖像的細節信息。擴張卷積多尺度淺層特征被提取,再送入金字塔模型進一步提取深層次特征,最終將這些特征用通道連接的方式完善淺層和深層特征。因此,本文算法結合了淺層和深層的圖像特征,有更好的特征提取和表達能力。擴張金字塔特征提取如圖1Fusion Net 中的Extractor 所示。

圖2 金字塔模型

1.2 融合策略

融合策略是在融合模型中將提取的兩張輸入圖像的特征轉化為單一的圖像特征的過程。假設I1、I2是輸入的兩張特征圖,F是融合圖像。加法策略(Addition)是將兩張特征圖簡單相加,數學表達式為

平均策略(Average)在加法策略的基礎上除以2,數學表達式為

FER[10]在加法策略和平均策略加入了特征圖權重信息的融合策略,數學表達式為

FER在特征圖權重中未考慮歸一化的特征權重。本文提出改進的FER 融合策略,用Softmax 函數把特征圖歸一化到0、1 之間,數學表示為

式中:xi是輸入特征圖I1、I2上的像素點,S(xi)1、S(xi)2分別是I1、I2經過Softmax 函數的輸出結果,F是融合圖像。

1.3 特征重構

特征重構輸入是融合后的圖像特征,用于從圖像中生成融合的可見圖像,在降低特征維數的同時盡可能保留更多的圖像細節。本文使用一個具有64 通道3×3 的卷積與輸入64 通道數進行運算,然后連續使用3 個分別具有32、16、1 通道的3×3的卷積將通道數從64 依次減少到1,最終得到一張1 通道的圖像輸出。特征重構的結構如圖1 Fusion Net 中的Reconstructor 所示。

1.4 損失函數

損失函數是影響深度學習的重要因素之一。不同的損失函數對神經網絡的優化和收斂有著不同的影響。大量研究表明,混合損失函數的優化性能往往超過單一的損失函數,因此本文采用基于內容損失和基于預訓練權重的VGG-16 訓練網絡?;趦热莸膿p失用于計算融合圖像和輸入圖像之間的像素差平方,L2損失[14]具有收斂速度快的特點,有利于網絡快速收斂;VGG-16 的低層次特征圖包含豐富的局部邊界信息,高層次特征圖則可以捕捉全局語義信息,用其在特征圖上進行監督。L2的數學表達式為

式中:F是融合圖像,I是輸入圖像,L、W是圖像的長、寬。

基于VGG-16 的損失函數數學表達式為

式中:Fi和Ii是融合圖像和輸入圖像經過VGG-16的第i層特征提取結構,是計算Fi和Ii的二范數。因此,總的損失函數數學表達式為

2 實驗結果分析

2.1 數據集和實驗設計

本實驗使用腦圖譜公共數據集(http://www.med.harvard.edu/AANLIB/home.html)進行訓練和評估。數據集分割成訓練集和測試集。SPECT-MRI數據集321 對用于訓練,32 對用于測試。圖片的大小都是256×256,SPECT 是偽彩色圖像,MRI是灰度圖像。圖像都是成對輸入模型訓練。

所有的模型都是基于PyTorch 框架設計實現的。網絡優化器用Adam,學習率設置為10-4去優化和降低融合損失函數;訓練輪數Epoch 等于100,由于圖形處理器(Graphics Processing Unit,GPU)的限制,每次的批次大小Batch_size 等于4。實驗所用的計算機配置是Inter(R) Core(TM) i9-11900K@3.50 GHz,GPU 是NVDIA GeForce RTX 3080 Ti 顯卡。

2.2 評價指標

過去已經提出了許多對于圖像融合的評價指標。不同的指標反映了不同角度圖像的融合性能。因此需要評價融合圖像的不同指標。

峰值信噪比(Peak Signal to Noise Ratio,PSNR)[15]是最大信號功率與信號噪聲功率兩者之比。PSNR越大,代表圖像質量越好。PSNR 的數學表達式為

式中:It是輸入圖像,I1、I2是輸入圖像對,MAXF是融合圖像F中像素最大值,m、n是圖像的行數和列數。

結構相似度(Structural Similarity,SSIM)[16]是一種衡量兩幅圖像相似度的指標,能反映場景中物體結構的屬性,并將失真建模為亮度、對比度和結構3 個不同因素的組合。SSIM 的范圍在[0,1],SSIM 越大,圖像失真越小。SSIM 的數學表達式為

式中:μx、μy是圖像的均值,σxy是圖像的協方差。

特征相似度(Feature Similarity,FSIM)[17]基于相位一致性和梯度的大小評價參考圖像的質量。FSIM 認為一張圖像中所有像素并非具有相同作用。FSIM 越大,圖像越接近參考圖像。FSIM 的數學表達式為

式中:S是圖像的結構信息,PC是相位一致性,x屬于圖像整個空間域。

熵(EN)[18]表示一張圖片包含的信息豐富度。熵值越大,意味著融合圖片包含的信息越豐富,融合質量越好。EN 的數學表達式為

式中:pF(i)是融合圖像灰度值為i的概率。

2.3 融合策略比較

本文第1.2 節討論了Addition、Average、FER和改進FER 幾種融合策略,比較了這幾種策略的可視化結果和客觀評價指標。圖3 顯示了不同融合策略的對比,可以看出,Addition 策略融合圖像整體偏亮,對SPECT 的效果并不好;Average 策略和FER 策略相較于Addition 策略,亮度緩和了,但是仍然存在融合圖像邊緣細節模糊;本文算法改進FER 相較于其他3 種融合策略整體圖像感官更好,圖像的邊緣信息保留更加豐富。

圖3 不同融合策略對比圖

本文還進行了客觀指標定量比較,結果如表1所示,加粗數字代表最優指標??梢钥闯龈倪MFER策略雖然在EN 表現較弱,但是在PSNR、SSIM、FSIM 這3 個指標都達到了最優的效果。PSNR、SSIM 和FSIM 指標證明了融合圖像與源圖像有很強的相關性,更多地結合了MRI和SPECT圖像的特征,保留了源圖像的更多細節信息。因此,改進FER 策略相較于其他3 種融合策略不僅有更好的整體圖像感官,而且具有更好的定量性能,能更好完成圖像融合工作。

表1 不同融合策略的性能對比

2.4 融合結果比較

為了證明所提出算法的有效性,本文比較了現有通用的圖像融合算法,包括MSPRAM[10]、DILRAN[11]、CDRNet[12],比較了不同算法的可視化結果和客觀評價指標。對比實驗可視化結果如圖4所示。從融合結果可以看出,CDRNet 算法整體圖像質感不好,融合圖像整體效果偏亮;MSPRAM 算法和DILRAN 算法在某些邊緣細節上存在細節丟失,導致邊緣細節模糊或者看不見。本文的融合結果相比以上3 種算法,在整體觀感上有更好的效果,看起來比其他算法更加自然,同時在邊緣細節信息上保留了更多細節輪廓信息,特別在對比度較弱的細節邊緣有著更好的融合效果。

圖4 不同算法對比圖

此外,融合結果的客觀指標如表2 所示,本文算法相對于參考算法的PSNR、SSIM 和FSIM 指標是最高的,EN 指標處于第二。在融合結果客觀指標評價上,所提算法的整體性能優于其他比較算法,最優的PSNR 表明本文的融合圖像的質量損失最小,圖像質量最好。SSIM 和FSIM 指標則說明本文的融合圖像保留了原始圖像更多細節上的信息,與原始圖像相似度更高。

表2 不同算法的性能對比

為了證明所提出的基于L2和VGG-16 網絡損失的聯合損失函數的有效性,本文比較了兩者的性能,結果如表3 所示??梢钥闯?,聯合損失函數在PSNR、SSIM 和FSIM 的指標優于單一的L2損失。

表3 不同損失函數的性能對比

綜上,本文算法不僅在視覺效果上有更優的觀感,而且在客觀指標上性能也更好,PSNR、SSIM和FSIM 指標證明了融合圖像與源圖像有很強的相關性。清晰、高度相關的圖像可以幫助醫生更好地準確治療,因此所提的融合算法在該領域有一定的作用和參考價值。

3 結語

本文提出了一種結合擴張金字塔特征提取的算法用于腦部醫學圖像融合。擴張型金字塔對原始多模態圖像特征的淺層和深層特征的結合,防止了圖像邊緣細節的丟失。特征融合中提出了改進的FER 特征融合策略,實驗結果表明有更好的觀感,能夠保留更多的圖像細節信息。本文利用特征重構器還原出融合圖像,提出一種基于L2損失和VGG-16 網絡損失的聯合損失函數,進一步學習圖像的細節信息。大量的實驗表明,與參考算法相比,本文的算法整體視覺質量比較高,在細節方面保留了更多原始多模態圖像的細節信息,在客觀指標如PSNR、SSIM 和FSIM 上有更好的表現。

猜你喜歡
金字塔特征提取損失
“金字塔”
A Study of the Pit-Aided Construction of Egyptian Pyramids
胖胖損失了多少元
海上有座“金字塔”
玉米抽穗前倒伏怎么辦?怎么減少損失?
基于Daubechies(dbN)的飛行器音頻特征提取
神秘金字塔
Bagging RCSP腦電特征提取算法
一般自由碰撞的最大動能損失
損失
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合