?

基于文本語義指導的自然場景文本圖像超分辨方法

2023-12-27 07:18習晨晨孟雅蕾張凱兵
空軍工程大學學報 2023年6期
關鍵詞:識別率注意力語義

習晨晨,何 昕,孟雅蕾,張凱兵

(1.西安工程大學電子信息學院,西安,710048;2.西安工程大學計算機科學學院,西安,710048)

文本圖像作為一種特殊圖像存在于人們的生活當中,人類大腦時刻在對看到的場景進行分析,并根據場景中的文字指導行為。但是受環境、設備等因素的影響,采集的文本圖像往往存在模糊、失真等低質量的情況。因此如何正確提取低質量文本圖像中的信息來獲得更高質量的圖像已經成為一個日益緊迫的問題。文本圖像超分辨重建技術應運而生[1-2]。文本圖像超分辨重建技術已經在交通安全監控、筆跡識別、證件識別、自動駕駛以及書法文物保護與恢復等領域具有極大的應用價值。

相比于規整的掃描文檔圖像,自然場景中拍攝的圖像所包含的文本有水平、傾斜甚至彎曲的文字,而且受制于硬件設備、攝像機抖動、相機與目標對象間的相對運動等拍攝條件的限制導致圖像存在不同程度的模糊、昏暗或者分辨率低等情況,多種因素表明自然場景文本圖像超分辨(scene text image super-resolution,STISR)非常困難。近年來,隨著深度學習技術的快速發展,基于深度學習的自然場景文本圖像超分辨技術克服了傳統方法復雜度高、泛化性差且需要較多的先驗信息等的局限性,取得令人矚目的成就。Wang等[3]引入條件生成對抗網絡(conditional generative adversarial networks,cGAN)來重建STISR,去除了cGAN中的批歸一化(batch normalization,BN)層,引入了Inception結構,有效擴展了網絡的寬度,使生成器能自適應地捕捉圖像中不同大小的文本線索,更適合STISR重建任務。Xue等[4]采用殘差密集網絡(residual in residual dense network,RRDN)提取比普通殘差網絡更深層的高頻特征,并利用注意力機制增強空間和通道特征,同時引入了梯度損失監督網絡訓練,以獲取更加清晰的文本邊緣,該方法在STISR任務上取得了不錯的結果。Zhang等[5]設計了一種不需要預訓練的STISR重建網絡,該網絡主要由卷積層、BN層、LeakyReLU激活層以及上采樣層和下采樣層組成,利用深度圖像先驗(deep image prior,DIP)的特點,設計了一種新的加權MSE損失函數來突出文本圖像的高頻細節。

2021年,Fang等[6]提出文本超分辨生成對抗網絡(text super-resolution generative adversarial networks,TSRGAN),引入生成對抗網絡來防止網絡產生過平滑圖像,同時加入三元組注意力機制提高網絡的表征能力,并引入小波損失來重構更清晰的邊緣。Honda等[7]提出了一種基于多任務學習的STISR網絡(multi-task super-resolution,MTSR),該網絡使用了2個并行任務:圖像重建和圖像超分辨(super-resolution,SR),將重建模塊和SR模塊的特征進行融合然后送入下一層進行迭代,使SR網絡能夠學習到重建任務中所提取的特征,最后得到一個訓練完備的STISR模型,獲得不錯的重建效果。但上述方法缺少先驗信息的利用,導致恢復圖像缺少細節信息,不能達到令人滿意的效果。

本文受文本先導超分辨(text-prior guided super-resolution,TPGSR)網絡[8]啟發,以文本超分辨網絡(text super-resolution network,TSRN[13])為基礎,從先驗信息利用和損失函數2個角度考慮自然場景文本圖像超分辨任務,提出了一個新的文本語義指導的超分辨網絡(text-semantic guided super-resolution network,TSGSRN)。針對TPGSR方法中使用低分辨文本先驗指導網絡訓練導致先驗信息利用不準確的問題,本文提出使用預訓練語義感知網絡建立SR圖像和真實高分辨(high resolution,HR)圖像之間的文本語義監督,以有效提高網絡模型對文本字符的語義理解能力。除此之外,針對現有的十字交叉注意力機制只關注局部特征的問題,本文使用循環十字交叉注意力[9],提升遠距離像素之間的相關性,更好地融合周圍像素的上下文信息,從而捕獲全局信息。最后,考慮到現有方法使用邊緣檢測算子提取邊緣導致的邊緣特征丟失問題,采用軟邊緣損失和梯度損失對重建結果進行優化。在相同的實驗條件下,提出的TSGSRN能獲得比現有方法更好的質量評價指標[10-11]。

1 TSGSRN整體框架

本文提出的TSGSRN的整體框架如圖1所示,由超分辨重建模塊和文本語義感知模塊組成。

圖1 基于文本語義指導的自然場景文本圖像超分辨方法整體框架

超分辨重建模塊以LR圖像及其二進制掩碼圖作為輸入。其中,LR圖像為RGB圖像,二進制掩碼圖為二值圖(文字區域置為1,背景區域置為0)。首先,網絡的輸入經過中心對齊網絡進行對齊,然后通過單個卷積層提取特征;其次,通過7個相同的超分辨殘差塊;最后,使用Pixel-Shuffle對處理后的特征映射進行上采樣,以生成SR結果,并通過L2損失、梯度損失和軟邊緣損失計算重建圖像和真實圖像之間的差異。文本語義感知模塊通過預訓練識別網絡建立SR圖像和HR圖像之間的字符類別概率分布差異,獲得更多面向文本的信息。相比于TSRN,TSGSRN有以下改進:①使用預先訓練的語義感知網絡感知文本自身的語義信息,使得模型具有更好的語義理解能力;②TSGSRN在每個超分辨殘差塊中加入了注意力機制進一步提升超分辨效果;③使用軟邊緣損失對生成圖像的邊緣進行約束,得到邊緣更準確、清晰的超分辨結果。

2 TSGSRN設計

2.1 超分辨重建模塊

SR重建模塊主要由對齊模塊、基于殘差網絡的重建主體、后上采樣模塊組成。首先,LR文本圖像及其二進制掩碼圖像作為輸入,送入到對齊網絡中,使得輸入的LR圖像與真實的HR圖像具有中心對齊的效果,以減小數據本身存在的像素誤差。對齊網絡采用薄板樣條變換(thin plate spline,TPS),對齊過程可以表示為:

Fin=fTPS(ILR)

(1)

式中:fTPS表示薄板樣條變換;Fin表示對齊網絡的輸出特征。然后,輸出的特征經過一個卷積核大小為9×9的卷積和PRelu激活函數,表示為:

(2)

(3)

(4)

式中:fup表示2倍上采樣操作;ISR表示整個超分辨重建模塊的輸出結果。

2.2 文本語義感知模塊

為了使得網絡能夠充分理解文本的內容信息,具有更好的感知能力,本文提出文本語義感知模塊見圖2,為文本語義感知(semantic-aware,SA)模塊的內部結構。

圖2 文本語義感知模塊結構

SA模塊使用CRNN網絡[12],該網絡結構包含3個部分:卷積層、循環層和轉錄層。卷積層使用卷積神經網絡(convolutional neural network,CNN),從輸入圖像中提取圖像特征;循環層使用循環神經網絡(recurrent neural network,RNN),對圖像特征的語義信息進行建模,用來預測從卷積層獲取的特征序列的標簽分布;轉錄層使用CTC損失使得預測序列更準確地與目標序列對齊,把從循環層獲取的標簽分布去重整合得到最終的分類文本先驗。

SR重建模塊得到的SR圖像ISR和真實的HR圖像分別送入CRNN網絡中,以SR圖像為例:首先經過6個卷積層,得到卷積層的輸出特征:

(5)

然后,特征FCNN送入循環層,循環層使用雙向長短時記憶網絡,根據輸入的特征進行預測,得到所有字符的SoftMax概率分布,該分布是長度為字符類別數,高度為字母表a~z和數字表0~9的向量。將該分布送入第3部分轉錄層,使用CTC損失使得預測序列更準確地與目標序列對齊,把從循環層獲取的標簽分布去重整合得到最終的分類文本先驗,如圖3所示。白點越明顯,表示屬于該類別的概率越高;越模糊,表示屬于該類別的概率越低。

圖3 字符分類概率圖

2.3 循環十字交叉注意力

隨著注意力機制被提出,超分辨任務也取得了進一步的發展。通道注意力首先被提出,其旨在建立不同通道之間的相關性,通過對每個通道的特征賦予不同的權重,從而強化重要特征,抑制非重要特征,更關注于全局特征;空間注意力旨在增強關鍵區域的特征表達,通過對空間中每個位置生成權重掩膜進行加權,增強感興趣區域表達,弱化無關的背景區域;三元組注意力通過利用三分支結構實現跨維交互,建立維度間的依賴關系;坐標注意力則是將位置信息嵌入到通道中,分別沿2個方向聚合特征,可以在一個空間方向上捕獲遠程依賴關系,同時在另一個空間方向上保存精確的位置信息,其只能捕獲某一個坐標的信息,不能捕獲周圍相鄰像素的信息,而循環十字交叉注意力通過級聯2個相同的十字交叉注意力,更好地融合全局上下文信息。

十字交叉注意力結構如圖4所示,對于輸入特征X,首先使用3個不同的1×1卷積核獲取注意力模型中的Q,K,V;通過Q和K來獲取當前像素下橫向和縱向像素點之間的相關性。最后將相關性矩陣與V整合,再加上原始的特征X,得到最終的注意力特征X′,但是該注意力只計算了“十字”結構中像素點的相關性,對于周圍的像素點未遍歷,只關注到局部特征。因此,通過級聯雙層的十字交叉注意力可對周圍像素點進行遍歷,從而融合全局上下文信息。循環十字交叉注意力在語義分割任務中已經取得不錯的效果。由于文本超分辨的目的是增強文字區域,弱化背景區域,因此該注意力可應用于文本超分辨任務。

圖4 十字交叉注意力

2.4 損失函數設計

在SR任務中,聯合不同損失函數對網絡模型進行優化,有利于加快網絡訓練時的收斂速度,從而提升模型的重建性能。因此,本文將像素損失、梯度損失、軟邊緣損失和文本語義感知損失聯合起來共同訓練所提出的深度網絡。本文方法使用的損失函數如下:

1)像素損失。像素損失表示SR結果和目標圖像之間的曼哈頓距離,相比于L1損失,L2損失有利于恢復清晰的邊緣,提高模型收斂速度。因此,本文采用L2損失度量重建圖像與目標圖像之間的誤差。像素損失表示為:

(6)

式中:ISR為SR圖像;IHR為真實的HR圖像。

2)梯度損失。圖5(a)、(b)和(c)分別表示LR、SR和HR圖像,圖5(d)、(e)和(f)分別表示其梯度圖??梢钥闯?LR圖像的梯度場為矮胖型,而HR圖像的梯度場為高瘦型,為了減小SR圖像和真實HR圖像之間的梯度分布差異,引入梯度損失,從而進一步減小SR圖像和真實HR圖像之間的差異,表達式為:

圖5 低分辨、超分辨和高分辨圖像及其對應的梯度圖

Lgrad=‖?ISR-?IHR‖1

(7)

式中:?表示梯度操作。

3)軟邊緣損失。為了保證恢復圖像的邊緣完整性,本文直接通過軟邊緣損失對SR圖像和HR圖像進行監督,表達式為:

(8)

4)文本語義感知損失。由于CRNN中的CNN的淺層特征和深層特征分別關注局部結構信息和全局語義信息,因此,文本語義感知損失可以同時保證低級筆畫結構和高級文本上下文之間的一致性。相比于一般的自然圖像超分辨方法側重圖像的局部細節,對文本語義和字符的形狀理解不佳,因此,從預訓練的文本語義感知模型中可以獲得更多面向文本的信息,它可以更好地衡量SR圖像和HR圖像中前景字符之間的相似性,表達式為:

Ltsa=λ1|tSR-tHR|+λ2DKL(tSR‖tHR)

(9)

式中:tSR和tHR分別表示SR圖像和HR圖像的語義類別概率;|·|表示L1范數;DKL表示KL散度操作;λ1和λ2為很小的常數,均設置為1.0。本文聯合以上4個損失對網絡模型參數進行優化,整個網絡的損失函數表示為:

L=αLpixel+βLgrad+γLedge+λLtsa

(10)

式中:α,β,γ,λ為用于平衡4個損失的權衡因子。本文將權重分別設置為:20、0.1、0.1和0.1。

3 實驗結果與分析

3.1 實現細節

本文方法使用WANG等[13]提出的TextZoom數據集進行訓練和測試,該數據集是從CAI等[14]提出的RealSR和ZHANG等[15]提出的SRRAW中裁剪得到。該數據集是第一個用于自然場景文本圖像超分辨任務的數據集,由相機在不同焦距的真實場景中捕獲(如圖6所示),其包含LR-HR圖像對,但由于人為抖動等原因,存在像素不對齊問題。

(a)150 mm

TextZoom數據集中18 986張圖像用于訓練,4 373張用于測試。測試集根據恢復難易程度分為3個等級:easy,medium和hard(如圖7所示)。Easy包含1 619張圖像,medium包含1 411張圖像,hard包含1 343張圖像。與合成的文本數據集的不同之處在于,該數據集的LR圖像不是經過對HR圖像下采樣獲得。并且TextZoom數據集在真實場景中經歷了復雜的退化,這使得SR模型難以恢復高質量的文本圖像。低分辨圖像大小為16×64,HR圖像大小為32×128。本算法模型基于Pytorch平臺實現,GPU使用Nvidia 2080Ti,學習率設置為0.001。

(a)easy

3.2 對比結果與分析

為了驗證本文提出方法的有效性,在公共的自然場景文本超分辨數據集TextZoom上進行了驗證實驗。本文方法對比了8種主流的超分辨方法:BICUBIC[16]、SRCNN[17]、SRResNet[18]、RDN[19]、VDSR[20]、LapSRN[21]、TSRN[13]、TSRGAN[6]。在TextZoom數據集上進行2倍放大的識別率評定結果如表1所示。ASTER,MORAN和CRNN為常用的3種文本識別器。ASTER由矯正網絡和識別網絡組成,矯正網絡使用TPS,識別網絡是一種加入注意力機制的序列-序列模型,對矯正后的圖像進行字符預測;MORAN由矯正子網絡MORN和識別子網絡ASRN組成,針對彎曲等不規則文本圖像具有較好的識別效果;CRNN的詳細介紹見2.2節。表1中,average為3個測試子集識別率的加權平均值,由于3個測試子集數量分別為1 619,1 411和1 343,因此將權重分別設置為0.37,0.32和0.31。PSNR[22]和SSIM[23]指標的定量評定結果如表2所示。在表中最優值均加粗表示。(注:由于TSRGAN方法源碼未公開,所有數據均摘錄于原論文)

表1 識別率對比實驗結果

表2 PSNR和SSIM指標對比實驗結果

在所有的比較方法中,前6種方法為一般圖像超分辨方法,沒有加入任何的圖像先驗信息,受模型性能制約,效果較差;TSRN使用梯度損失加強邊緣的構建,效果略有提升;TSRGAN在TSRN基礎上增加對抗損失和小波損失,進一步提升了超分辨效果;本文方法在TSRN基礎上加入文本語義先驗和軟邊緣損失,識別率進一步提升。從表1可以看出,本文方法在3個識別器上的平均識別率相比于TSRN分別提升了2.06%、1.80%和2.89%。在ASTER和CRNN識別器上的平均識別率相比于TSRGAN分別提高了0.34%和1.48%。在MORAN上的平均識別率卻稍低于TSRGAN。

由表2可以看出,本文方法相比于TSRN在3個測試子集的結構相似性(structual similarity,SSIM)指標分別提升了0.008 1、0.014 3和0.012 7;峰值信噪比(peak signal to noise ratio,PSNR)指標分別提升了0.47、0.34和0.22。相比于TSRGAN方法,本文方法的SSIM指標在測試子集easy和medium上略低,原因在于TSRGAN引入了對抗網絡,使得生成的文本圖像具有更豐富的細節。

由于PSNR指標具有爭議性,模糊的圖像可能具有較高的PSNR值,而清晰的圖像可能傾向于表現出較低的PSNR值,不一定符合人眼的視覺感知質量,因此,不以PSNR指標作為主要評價指標。綜上,本文方法相比于其他對比方法表現出了一定的優勢。

為了更直觀地對比不同SR方法的重建性能,圖8展示了所有對比方法在TextZoom數據集上的SR重建效果對比。本文選取一些最具有代表性且邊緣細節及文字完整性較好的圖像進行視覺質量對比??梢钥吹?方法SRCNN、SRResNet、RDN、VDSR、LapSRN和TSRN方法的重建結果較為平滑,邊緣完整性較差,而本文方法獲得的結果均表現出較為完整的字符邊緣,這主要得益于模型加入了文本語義信息和軟邊緣損失。盡管TSRN也能夠重建出較好效果的圖像,但是在細節上仍然存在問題,字符的分離度較差,存在相鄰字符之間的粘連問題。其原因在于該網絡在訓練的過程中只針對邊緣結構進行了優化,而缺少文本本身的語義信息參與指導,導致訓練得到的模型在重建過程中很難對相鄰字符之間的特征進行精準表示。

圖8 不同超分辨方法視覺對比結果

綜上,本文方法在相鄰字符的處理上具有一定的優勢,且效果逼真,識別錯誤率最低。此外,本文方法與TSRGAN相比在參數量上也有明顯的優勢。本文提出的基于文本語義指導的STISR方法具有較好的重建性能,更適合STISR重建任務。

3.3 消融實驗

1)循環十字交叉注意力。為了驗證提出方法使用的循環十字交叉注意力的有效性,對比了幾種具有代表性的注意力:通道注意力(CA)[24]、通道-空間注意力(CBAM)[25]、三元組注意力[26](TAM)和坐標注意力(CoA)[27],在3個測試子集的對比結果如表3所示。

表3 不同注意力的對比實驗結果

由表3可見,相比于其它注意力模型,使用的循環十字交叉注意力在easy和medium測試子集上的識別率、PSNR和SSIM指標具有一定的優勢,能顯著提升重建圖像質量。

2)文本語義感知模塊。為了驗證SA模塊的有效性,對該模塊進行了消融實驗,從定量和定性2個層面證明SA模塊的有效性,定量對比結果如表4所示,加入SA模塊后,在測試集的3個子集上的平均識別率、平均PSNR和SSIM值都高于沒有SA模塊的模型。重建圖像的視覺質量對比如圖9所示。從圖9可以看出,在SA模塊的作用下,模型具有較高的字符語義理解能力,字符的完整程度明顯較高,與HR圖像的相似性更高。

表4 語義感知模塊有效性定量對比實驗結果

(a)無SA模塊

3)損失函數。為了驗證本文方法所用損失函數的有效性,對其進行了消融實驗,如表5所示。

表5 不同損失函數的消融實驗對比結果

由表5可以看出,相比于單一的損失函數,聯合所有的損失函數能夠顯著提升模型的重建性能,得到更好的重建效果。表5中,第1行只使用像素損失,模型的重建效果不理想;第2行表示在像素損失的基礎上加入梯度損失,可以看出,在3個測試子集的識別、PSNR和SSIM指標均有所提高;第3行表示在像素損失、梯度損失的基礎上加入軟邊緣損失,可以看出,在medium測試子集的識別率提高了0.66%,在medium測試子集上的PSNR指標提高了0.51 dB;第4行表示在像素損失、梯度損失和軟邊緣損失的基礎上加入文本語義感知損失,可以看出,在3個測試子集的識別率、PSNR和SSIM均有所提高,相比于只使用像素損失的模型,對比指標有大幅度提升。上述實驗結果驗證了本文提出的3個損失函數對模型性能提升均有貢獻。

4)SRRB的數量。此外,還驗證了SRRB的數量對網絡模型重建性能的影響,結果如圖10和圖11所示,對于STISR任務,并不是越深的網絡效果越好,主要在于圖像先驗信息的引入,由圖10可以看出,SRRB數量為7時,模型在3個測試子集上均具有最好的識別率。

圖10 SRRB數量的消融實驗在識別率上的對比結果

(a)PSNR指標

SRRB的數量對PSNR和SSIM指標的影響結果如圖11所示,可以看出,當SRRB數量為7時,模型具有最佳的PSNR和SSIM指標。

4 結語

本文提出了一種基于文本語義指導的STISR模型,該模型能夠充分利用文本圖像的文本語義信息指導超分辨模型訓練,通過循環十字交叉注意力提升模型對文本上下文的理解能力,提升有效信息的表達能力,將更多的注意力放在文字本身。在常用的基準數據集TextZoom上的實驗結果表明,本文提出的方法在主觀和客觀質量評價方面都能夠獲得更好的重建結果,尤其在處理文本字符的粘連問題方面相比于其他方法具有顯著優勢。

盡管提出的基于文本語義指導的STISR重建方法能夠獲得更好的重建性能,但是仍然存在不足之處。首先,數據集中存在大量模糊圖像,模型對其語義理解能力不佳,效果較差;其次,STISR任務可以視為高頻信息恢復后的顏色填充問題,如何只對圖像的高頻信息進行處理顯得尤為重要,是未來需要進一步研究的問題。

猜你喜歡
識別率注意力語義
讓注意力“飛”回來
語言與語義
基于類圖像處理與向量化的大數據腳本攻擊智能檢測
基于真耳分析的助聽器配戴者言語可懂度指數與言語識別率的關系
提升高速公路MTC二次抓拍車牌識別率方案研究
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
高速公路機電日常維護中車牌識別率分析系統的應用
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合