?

基于深度殘差神經網絡的紅外圖像超分辨率重構算法

2024-02-29 14:38白廷柱
紅外技術 2024年2期
關鍵詞:殘差分辨率紅外

白 皓,白廷柱

(北京理工大學 光電學院,北京 100081)

0 引言

紅外成像技術是根據輻射原理成像而得到紅外圖像,圖像的亮度表征物體表面的溫度。由于具有隱蔽性好、全天候、適應雨霧等特殊氣象條件等優良特性,因此得到了廣泛應用[1-4]。然而受制于紅外圖像的成像機理、成像系統特性的影響,紅外圖像通常具有信噪比低、分辨率低和邊緣模糊的特點,圖像中往往缺少細節,這限制了紅外圖像的進一步應用。因此,如何提高圖像分辨率并增強紅外圖像中的細節,成為了重要需求。

超分辨率(super resolution,SR)算法[5]是指從同一場景的一個或多個低分辨率觀測結果中恢復高分辨率圖像的任務。根據輸入的低分辨率圖像(low resolution,LR)的數量,可以將超分辨率算法(super resolution,SR)分為單圖像超分辨率(single-imagesuper-resolution,SISR)和多圖像超分辨率(multipleimage-super-resolution,MISR)。與MISR 相比,SISR因其高效而廣受歡迎。由于具有高感知質量的HR(high resolution,HR)圖像具有更多有價值的細節,因此它被廣泛用于許多領域,例如醫學成像,衛星成像和安全成像[6-8]。典型的SISR 框架中,LR 圖像建模如下:

式中:IHR是對應的是模型輸入的原始場景高分辨率圖像;Mk表示運動位移矩陣;Dk為降采樣矩陣;n表示噪聲向量。圖像的超分辨率重建就是根據圖像的退化模型進行的逆過程。通常低分辨圖像可以被認為是降質模型的輸出;在超分辨率算法中,研究者們試圖從ILR中恢復出高分辨圖像ISR盡可能地接近原始的退化前的高分辨圖像IHR,過程如公式表示為:

式中:F代表超分辨率重建模型;θ是模型中的參數。但該等式并不是唯一的,因為高分辨圖像的退化可能同時受到多個退化因素的影響,圖像超分辨率重構過程中也無法確定退化因素的種類,因此該公式的解不是唯一的,即在圖像超分辨率重建過程中一個低分辨的輸出可能獲取多個高分辨的輸入。因而超分辨率重構問題也被看作是一個病態問題。

傳統SISR 的算法主要分為3 類:基于插值的超分辨率方法、基于重構的超分辨率方法和基于學習的超分辨率方法?;诓逯档某直媛史椒ㄔ砗唵?,其重構效果不是很好,在超分辨率領域應用有限?;谥貥嫷某直媛史椒ㄊ菑妮斎雸D像中提取所有有用信息,整個超分辨率過程等于信息提取和信息融合過程,以輸入圖像先驗知識和全局重構限制作為正則項,構建代價函數求解逆運算,此方法能保持清晰的圖像邊緣,但不能有效恢復紋理細節信息?;趯W習的超分辨率技術是借助機器學習知識,以大量的訓練圖像學習先驗模型,用學習過程中獲得的知識對低分辨率圖像中丟失的高頻細節信息進行預測和補充,它能生成豐富的高頻細節部分和紋理信息,但難以控制偽像失真。

隨著深度學習的發展,基于深度學習[8]的SISR 算法顯示出優于其他基于學習的方法的性能。SRCNN[9]是第一種使用深度學習方法的超分辨率算法,該方法表現出遠超傳統方法的學習能力,但該算法是先將圖像進行上采樣而后再利用卷積層進行學習,因而其結果中可能會出現將噪聲和有價值信號同時放大的情況,影響重構結果的信噪比。VDSR(very deep super resolution)[10]是SISR 算法中第一種深層網絡,該網絡由20 層VGG 組成,通過學習插值結果和高分圖像之間的殘差,以代替原來的直接映射。SRGAN(semi-supervised learning with generative adversarial networks)[11]將GAN 網絡應用超分辨網絡,構建一個具有感知損失的更深層網絡的生成對抗網絡以構造逼真的超分圖像。

EDSR(enhanced deep residual networks)[12]在ResNet[13]基礎上設計了一種新的模塊,擴大模型的尺寸來提升結果質量。ESPCN(efficient sub-pixel convolutional neural network)[14]使用亞像素上采樣的方法對圖像進行快速的超分辨率重建,僅在最后階段將低分辨率圖像放大為高分辨率圖像,是一種高效、快速的像素重排列的超分辨率算法。

上述方法對SISR 表現出良好的效果,但應用于紅外圖像時仍需改進:

一方面,卷積層提取特征時會很好地保留低頻信息,高頻信息會作為冗余信息舍棄,進而在重構圖像中造成細節缺失,由于紅外圖像中信息量少相比可見光圖像影響更大;另一方面,大多數的SISR 中的網絡模塊對其他層的特征利用較少,無法避免卷積層在使用過程中的信息損失。

根據以上分析,本文針對紅外圖像特點提出深度殘差神經網絡的超分辨率重構算法,結合密集網絡、殘差結構以及亞像素上采樣等結構優點,得到高質量紅外重構圖像,為后續的語義分割、目標識別等創造條件。

1 基于深度殘差神經網絡的超分辨率重構算法

基于深度學習的超分辨率模型專注于研究低分辨率圖像與原始高分辨率圖像之間的差異,雖然網絡模型之間差異巨大,但本質上是一些模塊的組合,比如模型框架、上采樣方法等。因此,我們可以根據特定用途將這些模塊集成起來構造出一個超分辨率模型。本文設計的深度卷積殘差網絡結構由殘差單元構成深度殘差強化模塊,上采樣部分我們使用亞像素上采樣層。

1.1 深度殘差強化模塊

紅外圖像信息量少,分辨率低,網絡需要學習到足夠的圖像中的信息才能保證重構圖像質量。即使是網絡中少量信息損失都可能會影響最終的重構圖像質量。對于超分辨率算法來說,網絡深度增加意味著網絡會損失更多的高頻細節,在重構圖像中圖像細節會有相應的損失。在語義分割、目標識別等高級圖像任務中,ResNet 被用來解決卷積神經網絡深度加深時會產生梯度爆炸的現象,但由于圖像超分辨率任務是圖像到圖像的映射任務,僅需研究輸入圖像與目標圖像高度相關僅學習它們之間的差異即可,一些模塊在超分辨率任務中并不是必要的,因而不能直接套用到超分辨這種低級視覺問題上。比如BN 層主要應用于輸入圖像的數據分布和輸出數據的分布不一致的情況。對于超分辨率任務來說,輸入和輸出的數據分布非常接近。因此一些研究保留了ResNet 的跳線結構并去掉了BN 層,有效地降低了網絡的計算量。如圖1所示,EDSR 提出的這個殘差塊(residual block)沒有應用池化層和批量歸一化(batch normalization,BN)層,去掉后的網絡就可以堆疊更多的網絡層或者使每層提取更多的特征,從而得到更好的性能表現。由于大多數的殘差區域接近零,模型的復雜性和學習難度大大降低。而跳線連接方式的保留本身就可以減輕由于網絡深度不斷增加而導致的降級問題,減少訓練難度并提高學習能力。

圖1 幾種殘差學習模塊結構對比Fig.1 Comparison of the several residual learning modules

針對紅外圖像中信息量少的特點,我們改變原有ResNet 中的激活函數。ReLU(可以按公式(3)計算)保留了階躍函數的生物啟發(即只有當輸入超過閾值時神經元才會被激活),允許基于梯度的學習(盡管在x=0 時,導數未定義)。因為函數及其導數都不包含復雜的數學運算,所以此函數計算過程非???。但是當輸入小于零或梯度為零時,其權重無法更新,此時ReLU 的學習速度會變慢,甚至可能使神經元直接失效。Leaky ReLU 函數(Leaky Rectified Linear Unit,LeakyReLU)(可按公式(4)計算)是經典ReLU 激活函數的變體。其中a 需人工設置,一般為0.01 或0.001數量級的較小正數。當輸入為負時,這個函數的輸出仍然有一個小的斜率。當導數非零時,可以減少沉默神經元的出現,允許基于梯度的學習(雖然會很慢),從而解決ReLU 函數進入負區間后神經元不學習的問題。與ReLU 相比,LeakyReLU 具有更大的激活范圍。

1.2 亞像素上采樣層

紅外探測器相比可見光探測器像元數量少,獲取的紅外圖像的分辨率低,為便于顯示多采用插值法以提高圖像分辨率。一般插值法是通過目標函數在若干點的函數值或者導數值附近構造一個與目標函數相近似的低次插值多項式。該方法增加了圖像的美觀性,但在某種程度上喪失了部分數據的真實性,沒有考慮到原有像素間的分布特點,僅能針對局部小區域進行運算并且運算量巨大,在某種程度上喪失了部分數據的真實性,因而在重構圖像中可能會出現紋理條紋或者局部模糊甚至對求梯度優化有害。

亞像素上采樣層又稱像素混合層(pixel-shuffle layer)不同于基于插值的上采樣方法,該層的插值函數隱含在前一個卷積層中,可以自動學習。在本文中,亞像素層可以表示為:

其中PS 代表亞像素上采樣運算,WL代表卷積操作。

式中:mod()表示在最后一層的前一層進行的卷積操作;s是比例因子。

亞像素上采樣層是一個端到端的上采樣層,執行上采樣通過卷積產生多個通道然后重塑它們。在這一層中,假設輸入尺寸為h×w×c,則輸出尺寸為h×w×s2。之后,進行變形操作以產生大小sh×sw×c輸出。這里的卷積操作是在低分辨率圖像,因而亞像素上采樣的效率將高于雙三次上采樣和反卷積。使用這種端到端的上采樣方式得到的子像素層提供更多的上下文信息以幫助生成更多現實的細節。然而,因為構造亞像素點時利用的信息來源于同一卷積層,其感受野的大小是相同的,實現了相互獨立的塊狀區域預測。但由于構造過程缺少全局信息,獨立預測塊狀區域中的相鄰像素可能會導致輸出不平滑。

1.3 深度密集殘差結構的設計

在超分辨率重構過程中的信息損失可以分為兩部分:一部分源于卷積層在進行卷積操作時造成的中心區域外的信息損失;另一部分是在超分辨率重構過程中,高頻信息被作為冗余信息舍棄。在前文設計的深度殘差模塊可避免卷積層使用過程中的信息損失,可通過堆疊該模塊增加網絡深度。但是,模塊僅能利用這個模塊內部信息,其他模塊的信息無法充分利用。并且結構中缺少對于低分辨率圖像中信息的利用。

在本文中,我們構建了深度密集殘差結構。結構中包含6 個改進的殘差塊,每個殘差塊用以提取局部特征。為了充分利用每個模塊提取的信息,每個殘差塊的輸出可以遞進地傳遞到下一個殘差塊的各層并與那一層的特征進行融合,從而保證特征信息連續傳遞。這種局部特征融合策略通過自適應地保存信息來提取局部密集特征,在實現密集網絡的同時用于解決梯度消失問題,有效地保證了網絡對于紅外圖像的學習能力。

在提取多層局部密集特征后,我們進一步進行全局特征融合以傳輸全局上下文特征,作為對重建圖像的指導。通過連接輸入和輸出圖像將全局特征傳輸到亞像素上采樣層(即pixel-shuffle layer),實現對于全局殘差特征的利用。如圖2所示,亞像素上采樣層可以直接訪問原始的低分辨率輸入,避免由于卷積層大量使用造成的局部上下文信息缺失引起的重建錯誤。局部特征融合和全局特征融合也可以起到減少高頻信息損失的作用。

圖2 密集特征傳遞連接設計Fig.2 Dense feature transfer connection

在網絡中,我們選用L2 loss(即最小化誤差)作為網絡的損失函數。該函數是真實值和預測值之間所有平方差的總和,公式如(7)所示:

式中:ytrue代表真實值;ypredicted代表預測值。

2 實驗結果與分析

2.1 實驗設置

實驗中我們使用中國科技大學提出的地/空背景下紅外圖像弱小飛機目標檢測跟蹤數據集[15]。紅外數據集中每個紅外數據段的原始數據為視頻格式,為了后續數據加工的方便,在數據預處理階段將每個數據段的視頻格式數據轉換為8 bit 位深的Windows 位圖格式的多文件的圖像序列。圖像分辨率為10~100 m。

測試集中我們使用了中波紅外熱像儀提取的圖像,該熱像儀能見度為8 km,視場角為17°×13°,圖像原始分辨率為768×564。

我們使用來自NVIDIA 1080Ti GPU 的隨機樣本訓練所有網絡,為了優化,我們使用b=0.9、且學習率為10-4的ADAM。由于GPU 內存限制,我們調整了數據集中圖像的大小,我們將圖像裁剪為512×512像素,這可以保證網絡有足夠的數據,防止模型過擬合,提高其魯棒性。測試圖像尺寸為256×256 像素。為客觀公平進行比較,所有基于深度學習模型的超分辨率算法都采用相同的訓練集進行訓練。

為了模擬低分辨率圖像,我們首先按比例因子圖像進行下采樣,將對應的圖像大小改為原來的1/比例因子,作為超分辨率網絡的輸入。我們設置的比例因子為2、3 和4。實驗中使用PSNR 和SSIM 作為客觀評價標準。

PSNR 的定義可以表示為:

式中:n是每個像素的位數;X是原始圖像;Y是超分辨圖像。H和W是圖像的寬度和高度。

SSIM 值的公式為:

式中:μx是圖像x的平均值;μy是圖像y的平均值;σx2是x的方差;σy2是y的方差;σxy是x和y的協方差。c1=(k1L)2和c2=(k2L)2是維持穩定的函數;L是像素值動態范圍,k1=0.01,k2=0.03。

2.2 實驗結果對比

在對比實驗中,采用了3 種經典的基于深度學習的超分辨率算法與本文算法進行定性定量比較:EDSR(enhanced deep-networks for super-resolution),超分卷積神經網絡(super-resolution convolutional neural network,SRCNN),ESPCN(efficient sub-pixel convolutional neural network)。本文同時選擇了常用的雙線性插值法(Bicubic)作為實驗結果中主觀評價的結果之一。為客觀公平進行比較,所有基于深度學習模型的超分辨率算法都采用相同的訓練集進行訓練。

對比的實驗結果分別列在表1~2 以及圖3~4中。從表1 和表2 的結果來看,本文設計的超分辨率方法在所有尺度因子下均獲得較高的PSNR 與SSIM。實驗結果表明,本文提出的方法在PSNR 和SSIM 等客觀評價指標上優于其他算法。相比于其他幾種算法,本文設計的深度殘差神經網絡的重構紅外圖像效果明顯優于其他幾種算法,圖像更加自然,與原圖像相比改善了部分區域的紋理細節,實現了高質量的紅外圖像重構。

表1 使用4 種方法對紅外圖像的PSNR 與SSIM 評價結果1Table1 PSNR evaluation results of infrared images using four methods

表2 使用4 種方法對紅外圖像的PSNR 與SSIM 評價結果2Table 2 PSNR evaluation results of infrared images using four methods

圖3 紅外圖像的超分辨率重構圖像對比1Fig.3 Super-resolution reconstruction image comparison of infrared images 1

從表1 和表2 可以看出,本文算法的SSIM 值與ESPCN 的SSIM 值非常接近,PSNR 值提升相對較多。這表明本文設計的算法在增加網絡深度的同時并沒有造成超分辨率重構結果質量的降低。與EDSR 算法的對比表明,本文提出的算法在SSIM 和PSNR 值上有所提高,這表明本文設計的密集網絡結構中關于局部特征融合和全局特征融合的設計可以有效地改善重構圖像質量。

在圖3 和圖4 中可以看出,所有算法的重建質量相比雙線性插值有一定的提升,對于具有明顯邊界的區域夠得到清晰的紋理。所有算法的重建質量相比雙線性插值有一定的提升,對于具有明顯邊界的區域能夠得到清晰的紋理。

圖4 紅外圖像的超分辨率重構圖像對比2Fig.4 Super-resolution reconstruction image comparison of infrared images 2

在圖3 中,圖3(b)為雙線性上采樣方法,重建圖像中部分勻質區域過于平滑,缺少細節真實感。圖3(c)是SRCNN 的結果,由于網絡只有3 層,學習能力有限,圖像中出現大量虛假紋理信息,在均勻區域容易出現偽影;圖3(d)是EDSR 的結果,該網絡堆疊更多的殘差模塊以提高網絡學習能力,因此重構結果明顯優于SRCNN,但是網絡缺少對于其他層信息的利用,圖像中出現大量紋理條紋;圖3(e)中的ESPCN 算法采用了亞像素上采樣層,其效果與EDSR 近似,但相比EDSR 層數較少,圖像中的景物輪廓不夠清晰,白點的無人機輪廓也并不清晰;圖3(f)是本文設計的方法,圖像細節明顯,尤其是林地、草地等具有不規則形狀的區域重建效果較好。圖4 中可以看出,本文提出的網絡對復雜的雜亂紋理的重建效果較好,尤其是草地上的雜亂區域的重構圖像比較清晰,細節豐富。

得益于深度殘差模塊的使用以及亞像素上采樣模塊的引入,本文所提出的模型可以獲得更加理想的高分辨圖像,解決了不規則紋理的模糊問題。尤其是通過采用密集特征連接結構,該網絡可以有效地加深網絡結構,提高網絡的學習能力。這表明我們提出的方法在提取信息和高頻信息保留方面效果較好。

3 結論

針對紅外圖像特點,本文提出了一種基于深度殘差神經網絡的超分辨率重構算法。該模型利用改進的殘差模塊有效地增加了網絡深度,提高了網絡的學習能力,通過使用密集特征連接提高了網絡對高頻信息的利用,并有效地增加了對于網絡結構中不同層的信息利用。仿真實驗結果表明本文模型能夠生成具有豐富細節并且目標輪廓邊界清晰的圖像,有效地補充了原圖中的細節??傮w來看,本文中設計的算法在保持較高精度的同時,還可以很好地處理目標的尺度變化和目標周圍的環境,說明算法中加入的密集網絡結構、深度殘差強化模塊等發揮了良好的作用。

猜你喜歡
殘差分辨率紅外
基于雙向GRU與殘差擬合的車輛跟馳建模
網紅外賣
閃亮的中國紅外『芯』
基于殘差學習的自適應無人機目標跟蹤算法
基于遞歸殘差網絡的圖像超分辨率重建
EM算法的參數分辨率
TS系列紅外傳感器在嵌入式控制系統中的應用
原生VS最大那些混淆視聽的“分辨率”概念
基于深度特征學習的圖像超分辨率重建
一種改進的基于邊緣加強超分辨率算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合