?

融合對抗網絡和維納濾波的無人機圖像去模糊方法研究

2024-03-05 07:35張文政吳長悅滿衛東劉明月
無線電工程 2024年3期
關鍵詞:維納濾波振鈴損失

張文政,吳長悅,趙 文,滿衛東,2,3,4,5,劉明月,2,3,4,5

(1.華北理工大學 礦業工程學院,河北 唐山 063210;2.唐山市資源與環境遙感重點實驗室,河北 唐山 063210;3.河北省礦區生態修復產業技術研究院,河北 唐山 063210;4.礦產資源綠色開發與生態修復協同創新中心,河北 唐山 063210;5.河北省礦業開發與安全技術重點實驗室,河北 唐山 063210)

0 引言

隨著無人機(UAV)技術的不斷發展和應用的深入,UAV測量作為一種新興的測量手段,已經在測繪領域得到了普遍的應用。相比于傳統的測繪方法,UAV航拍測量具有多項特點,包括高視角、細節捕捉、高分辨率和時間序列觀測等,特別是在大規模測繪和難以到達的地形區域測量方面具有獨特的優勢[1-2]。

在實際作業中,UAV在拍攝時可能存在3種類型的相對運動:平移、旋轉和運動畸變,這些運動引起了圖像中的像素位置變化,導致圖像失去清晰度和細節,從而產生模糊現象。然而,UAV航拍測量的精度很大程度上依靠機載相機對地物高分辨的細節捕捉。因此,去除圖像模糊、恢復圖像特征對于提高測量精度和效率具有重要意義。

針對模糊圖像的處理方法主要分為傳統方法和基于深度學習的方法[3-6]。傳統方法通常包括圖像濾波、去模糊算法等,如高斯濾波、維納濾波(Wiener Filter)和盲源分離等。這些方法具有簡單、直接、易于實現等優點,但是在處理復雜的模糊圖像時存在一定的局限性。近年來,隨著深度學習技術的進一步發展,基于卷積神經網絡(CNN)[7]的圖像去模糊方法成為了研究熱點。Shao等[8]首先將CNN引入到圖像去模糊領域中,提出了DeBlurNet方法,但其對于高速運動模糊的處理效果不佳。Goodfellow等提出的生成對抗網絡(Generative Adversarial Network,GAN)通過學習真實圖像分布,可以生成高質量、較真實的圖像,因此被廣泛應用于圖像增強和圖像復原任務[9]?;贕AN的DeblurGAN和DeblurGANv2方法也應運而生,成為當前比較流行的端到端學習方法的去模糊網絡[10],其中DeblurGANv2[11]相對于其前身DeblurGAN表現更加突出,且在GoPro數據集上的SSIM-FLOPS權衡圖上也明顯優于尺度循環網絡(Scale-Recurrent Network,SRN)[12]以及其他運動模糊模型。這些方法的引入和不斷優化,為圖像去模糊任務帶來了巨大的進步和突破。

然而,在UAV測量領域中,由于圖像中存在一定程度的運動模糊和透視變換等問題,傳統方法和基于深度學習的方法在處理UAV測量圖像時存在一定的不適用性。因此,針對UAV測量中的模糊圖像問題,需要進一步深入探究相應的圖像處理方法。

本文工作主要包括三方面:① 將DeblurGANv2網絡引入到UAV測量模糊圖像的恢復任務中,并設計一種自適應指數移動平均損失函數(Adaptive Exponential Moving Average Loss Function,AEMALF);

② 將維納濾波后的圖像存在振鈴效應進行高頻抑制并通過色彩映射等方法恢復原圖像部分細節;③ 建立了模擬仿真的UAV測量運動過程模糊圖像數據集。

1 去模糊算法

1.1 維納濾波

維納濾波是一種線性濾波器,常用于信號處理和圖像處理領域,是一種基于最小均方誤差準則的濾波器,能夠提高信號質量并處理具有固有模糊的圖像和信號。該濾波器通過估計信號和噪聲的功率譜密度,將信號在頻域中加以濾波,以達到降噪和去除模糊的目的[13]。其原理可以概括為:通過對一個待處理信號進行加權平均的方式,抑制噪聲,同時增強信號。其核心思想是先通過對信號和噪聲的功率譜密度的估計,來提高信號的質量。將信號和噪聲的功率譜密度作為輸入,對信號進行線性濾波處理,從而抑制噪聲并增強信號的特征[14]。其具體組成部分如圖1所示。

圖1 去振鈴效應維納濾波組成部分Fig.1 De-ringing effect Wiener filtering components

在離散時間信號的情況下,維納濾波的數學公式為:

(1)

式中:H(u,v)為維納濾波器的頻率響應,Sf(u,v)為輸入圖像的傅里葉變換,K為一個正常數,它代表了噪聲和信號功率譜之間的比率。在實際應用中,K的值通常需要根據具體情況來確定。

維納濾波的具體流程如下。

① 對原始圖像進行傅里葉變換,得到頻域圖像G(u,v):

(2)

② 計算模糊函數H(u,v)的傅里葉變換:

(3)

式中:h(x,y)為模糊函數。

③ 分別計算Sη(u,v)和Sf(u,v)的功率譜:

(4)

式中:η(x,y)為噪聲圖像,f(x,y)為未經模糊和噪聲處理的原始圖像。

④ 根據維納濾波公式計算每個頻率分量的加權系數,得到加權后的頻域圖像F(u,v):

(5)

式中:K為一個常數,用于控制噪聲的強度。

⑤ 對加權后的頻域圖像進行傅里葉反變換,得到去模糊后的圖像fdeblur(x,y):

fdeblur(x,y)=-1F(u,v)G(u,v),

(6)

將維納濾波引入到UAV圖像恢復中,用于對模糊圖像進行預處理。然而維納濾波對于模糊核的估計要求較高以及輸出圖像存在一定的振鈴效應,因此采用如圖1所示的以高截斷方式補償這一缺陷的方法。

1.2 改進對抗網絡

DeblurGANv2是一種圖像去模糊方法,是DeblurGAN的改進版,其流水線架構如圖2所示。GAN是一種基于博弈論的機器學習技術,由生成器和判別器2個網絡構成。生成器網絡接受輸入的模糊圖像并嘗試生成清晰的圖像,判別器網絡則嘗試區分生成器生成的圖像是否真實。生成器和判別器通過不斷地對抗學習來提高性能。GAN能夠從大量的數據中學習到真實圖像的分布特征,從而生成具有相似特征的圖像,因此在圖像去模糊任務中,使用GAN可以獲得更好的效果。其推出了特征金字塔網絡(Feature Pyramid Network,FPN)放入到去模糊任務中,作為GANv2生成器的核心構建塊,可以靈活地與廣泛的骨干網絡合作,在性能和效率之間取得平衡,例如使用輕量級主干(MobileNet[15]及其變體)。GANv2網絡中的帶有梯度懲罰的沃瑟斯坦距離生成式對抗網絡(Wasserstein GAN with Gradient Penalty,WGAN-GP)[16]是一種用于判別器的損失函數,它是基于沃瑟斯坦距離的對抗網絡(Wasserstein GAN,WGAN)的一個改進版本,可以解決WGAN的梯度爆炸和消失問題。WGAN-GP使用梯度懲罰技術,迫使生成器生成的圖像更加逼真,并且在訓練過程中可以自適應地調整懲罰系數。WGAN-GP的公式為:

圖2 DeblurGANv2流水線架構Fig.2 DeblurGANv2 pipeline architecture

(7)

式中:D(G(z))為判別器對生成器生成圖像的輸出,D(x)為判別器對真實圖像的輸出,λ為懲罰系數,GP為梯度懲罰項,用于防止梯度消失或爆炸。

(8)

λ是一個很重要的超參數,主要用于控制生成器和判別器之間的平衡,使GAN網絡的訓練更加穩定和高效。為確保判別器的梯度具有連續性。在WGAN-GP中,λ的值通常設置為10,以確保梯度懲罰在損失函數中的權重得到平衡。值一直為10的情況可能會導致GAN模型中生成器和判別器之間的平衡失調。如果判別器表現不佳,無法準確地區分真實和生成的樣本,將影響生成器的訓練效果,導致生成器無法生成真實的樣本。如果判別器表現很好,生成器將生成接近真實樣本的樣本,但此時如果值一直為10,則損失函數會過于強調對生成樣本的誤差,可能導致生成的樣本過于保守或缺乏多樣性。因此,為了得到更好的訓練效果,通常需要根據模型效果時刻調整λ值,使其適應當前訓練的狀態,達到一個更好的平衡。

2 改進的自適應損失函數模型

為了解決UAV高速飛行時拍攝的圖像產生運動模糊的問題,提出了一種基于維納濾波模塊的自適應DeblurGANv2網絡?;谥笖狄苿悠骄?Exponential Moving Average,EMA)[17-18]對GANv2網絡中損失函數的超參數λ(懲罰系數)進行改進,設計一種AEMALF。圖3為損失函數中ASEMA調節過程。

圖3 損失函數中AEMALF調節過程Fig.3 Conditioning process of AEMALF in the loss function

其中,對損失函數中λ超參數引入ASEMA算法。

一組模糊圖像和清晰圖像對,其中模糊圖像為x,清晰圖像為y。AEMA算法流程如下。

① 對每個模糊圖像x,使用模型f生成一個估計的清晰圖像y′。

② 計算當前模糊圖像x和生成的估計清晰圖像y′之間的均方誤差損失L(x,y′)。

MSE(x,y′)表示輸入圖像x和生成圖像y′之間的均方誤差:

(9)

③ 對所有模糊圖像x的損失進行指數移動平均,得到EMA損失LEMA:

LEMA=α*L(x,y′)+(1-α)*LEMAprevious,

(10)

式中:LEMA為EMA損失,L(x,y′)為當前批次的均方差損失,α為EMA系數,LEMAprevious為上一次迭代的EMA損失。

④ 計算EMA損失的標準差Lstd:

(11)

式(11)的意義是在每次模型迭代時,將當前的MSE損失函數與上一次的EMA損失函數進行加權平均,以得到更加平滑、穩定的損失函數值。具體地,根據式(10),LEMA在每次迭代中以一定的權重(1-α)保留上一次的值,同時以另一個權重(α)考慮當前的MSE損失函數。這樣,EMA損失函數值不僅包含了當前迭代步的信息,還包含了之前迭代步的信息,使得該函數更加平穩、更能夠反映模型的整體性能。

首先,提出先用維納濾波模塊對模糊圖像進行預處理并傅里葉變換后將高頻信息截斷能有效的抑制振鈴效應的產生;然后,對Mobilenetv2輕量網絡增加提取特征深度和寬度以此作為DeblurGANv2的主干網絡,并且對判別器損失函數中的超參數自適應化;最后,本文對模糊圖像進行2次恢復,使恢復的圖像更加清晰。

3 實驗測試與結果分析

3.1 數據集

用大疆精靈4RTK版UAV進行航線規劃飛行,飛行過程中將快門速度降低以及拍攝照片中存在一些快速移動的物體用來模擬常規拍攝中可能存在的模糊現象,并且采用了一種基于物理模型的方法來生成訓練樣本。該模型采用高斯過程模擬運動軌跡,在這個模型中運動軌跡上的每一點都與上一點的位置和速度有關。對運動軌跡進行子像素插值,得到對應的模糊核。

采集1 000對無人機圖像,并按照5∶1的比例將其劃分為訓練集和測試集。圖4展示了部分訓練數據,其中圖4(a)為清晰圖,圖4(b)為清晰圖的局部細節圖,圖4(c)為模糊圖,圖4(d)為模糊圖的局部細節放大圖。此外,為了提高模型的魯棒性、泛化能力和多樣性,在采集過程中盡可能涵蓋不同場景、不同光照等情況;另外為使模型更好地適應常規作業中不同程度的模糊圖像,在訓練集中放入多種模糊度的圖像。

圖4 部分訓練數據Fig.4 Partial training data

3.2 圖像相似度評估

使用2種圖像相似度評估算法對生成圖像和標準圖像進行比較,分別是峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結構相似度(Structural Similarity,SSIM)評估算法[19-21]。

PSNR是一種用于表示信號最大可能功率和表示精度之間比值的工程術語,通常用對數(單位dB)表示,由于許多信號具有非常寬的動態范圍,因此PSNR具有廣泛的應用。

(12)

式中:MAX是表示像素點顏色的最大數值,8 b表示的圖像中MAX為255。信噪比數值越大,代表圖像越清晰失真越少。

SSIM是一種用于比較2幅圖像相似程度的指標,當一幅圖像為無失真圖像,另一幅圖像為失真后的圖像時,2幅圖像之間的SSIM值可以作為失真圖像的圖像品質衡量指標。相較于傳統的圖像品質衡量指標,SSIM更能符合人眼對圖像品質的判斷,因為它不僅考慮了圖像的亮度信息,還考慮了圖像的結構信息。給定2個圖像x和y,SSIM指標通過比較2幅圖像的亮度、對比度和結構信息來衡量它們的相似性,二者的SSIM定義為:

SSIM=[l(x,y)]α[c(x,y)]β[s(x,y)]γ,

(13)

式中:l(x,y)表示圖像的亮度,c(x,y)表示圖像的對比度,s(x,y)表示圖像的結構信息,α、β、γ用于調整這些因素的相對重要性。當SSIM指標的值越大時,表示2幅圖像的相似度越高。

3.3 實驗結果分析

本文通過實驗設計了3種模型,并與DeblurGANv2模型進行對比。這3種模型分別為去振鈴效應維納濾波(Ring Artifact-free Wiener Filter, RLW)、基于自適應指數移動平均函數的對抗網絡(DeblurGANv2-AEMALF)以及融合對抗網絡和去振鈴效應的維納濾波網絡(RLW-DeblurGANv2-AEMALF, RLW-DG-AEMALF)。對比結果如表1所示,其中DeblurGANv2模型為消融實驗對照組。

表1 評估結果

圖5為去模糊效果對比??梢钥闯?RLW方法雖然相較模糊圖像有一定程度上的改善,但仍然存在少量的振鈴效應,而DeblurGANv2生成的圖像較為平滑且沒有振鈴效應,但在局部細節上仍然存在模糊現象?;赗LW的自適應損失函數所生成的圖像紋理信息更加豐富,更加貼近于清晰圖像。

圖5 去模糊效果對比Fig.5 Contrast of deblurring effects

根據表1的評估結果,本文所提出的RLW-DG-AEMALF模型相比于DeblurGANv2模型,在訓練過程中需要更多的時間,但是預測單張照片的平均處理時間差距不大。此外RLW-DG-AEMALF模型在去除圖像模糊方面表現更優,展現出更好的去模糊效果。盡管RLW模型仍存在一定的振鈴效應,但后續的深度學習網絡可以彌補這一缺陷。

實驗結果表明,相對于原始的DeblurGANv2和維納濾波模型,RLW-DG-AEMALF模型在圖像平均PSNR分別提高了1.56、1.99 dB,SSIM分別提高了6%、9%

3.4 GoPro數據集實驗結果分析

GoPro數據集是目前為數不多的公開運動模糊圖像數據集之一。該數據集使用GOPRO4 HERO Black相機拍攝街景視頻,每秒拍攝240幀,并對連續的7~13幀進行平均以獲得不同程度的模糊圖像。數據集中將中間位置的一幀定義為對應的清晰圖像,共包含3 214對圖像,其中2 103對用于訓練,1 111對用于測試,圖像分辨率為1 280 pixel×720 pixel。由于去模糊任務是將模糊圖像恢復為清晰圖像,因此在訓練集中添加少量經過維納濾波的圖像可以更好地幫助模型學習圖像之間的對應關系,并提高模型的泛化能力。但需要注意的是,添加維納濾波后的圖像時需要控制數量,以避免過多的維納濾波后圖像影響模型的多樣性,從而導致模型過擬合。GoPro數據集實驗的評估結果如表2所示。

表2 GoPro數據集評估結果

針對復雜的街景環境下的運動模糊,本文使用GoPro數據集進行實驗,結果如圖6所示??梢钥闯?僅使用RLW或DeblurGANv2-AEMALF方法的效果并不明顯,且使用RLW方法恢復的圖像中振鈴效應更加明顯,對于一張圖像中存在多種模糊圖像的恢復效果更差。具體原因在于,RLW方法是一種用于運動模糊去除的方法,需要對模糊核進行準確的估計。但在復雜場景下,模糊核可能會因為運動模糊和其他因素的影響而變得復雜,導致精度更高的估計變得更加困難。因此,即使使用RLW方法,也可能無法獲得足夠好的恢復效果。然而,RLW-DG-AEMALF模型結合了自適應損失函數和DeblurGANv2的優點,能夠通過多次復原對模糊圖像進行有效地恢復,因此仍然可以獲得較高的PSNR值。

圖6 GoPro數據集去模糊效果Fig.6 GoPro dataset deblurring effects

實驗結果表明,與DeblurGANv2相比,本文構建的RLW-DG-AEMALF模型在GoPro數據集中展現了一些顯著的優勢。雖然該模型的訓練時間相對較長,但是預測單張圖片方面與DeblurGANv2幾乎相同,而且對運動模糊的圖像顯示出了很高的復原能力。相較于同類算法DeblurGANv2和維納濾波,RLW-DG-AEMALF模型恢復后的圖像平均PSNR分別提高了0.84、1.7 dB,SSIM分別提高了1%、12%。

4 結束語

針對UAV航拍測量中產生的圖像運動模糊這一場景,并為了充分捕捉圖像中地物的細節,提出了一種新的模型,將AEMALF與DeblurGANv2模型相結合,設計了DeblurGANv2-AEMALF模型,用于UAV模糊圖像恢復任務。又由于DeblurGANv2模型在不同尺度上學習圖像細節和輪廓特征的能力,將高頻信息截斷后的維納濾波與DeblurGANv2-AEMALF網絡相結合,首次提出了RLW-DG-AEMALF網絡模型。實驗表明,該模型通過對模糊圖像進行2次復原,使圖像的恢復更加清晰,同時能夠有效抑制維納濾波后出現的振鈴效應。在消融實驗中,RLW-DG-AEMALF網絡模型在構建的UAV數據集和GoPro數據集上表現出比原始DeblurGANv2網絡模型更好的模糊圖像復原效果。相較于同類算法DeblurGANv2和維納濾波,此算法恢復的圖像平均PSNR和SSIM均有顯著提高。然而,本文算法并沒有針對UAV航拍測量中可能出現的圖像霧化問題進行處理,為了改進算法,后續考慮在相應的模塊中引入大氣散射模型進行處理。

猜你喜歡
維納濾波振鈴損失
胖胖損失了多少元
振鈴現象對心電圖分析和診斷的影響
多級維納濾波器的快速實現方法研究
自適應迭代維納濾波算法
玉米抽穗前倒伏怎么辦?怎么減少損失?
家庭網關振鈴業務配置策略研究
基于多窗譜估計的改進維納濾波語音增強
基于維納濾波器的去噪研究
一般自由碰撞的最大動能損失
損失
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合