?

基于自監督注意和圖像特征融合的文本生成圖像方法

2024-03-05 08:15廖涌卉張海濤金海波
液晶與顯示 2024年2期
關鍵詞:低分辨率注意力語義

廖涌卉, 張海濤, 金海波

(1.遼寧工程技術大學 軟件學院, 遼寧 葫蘆島 125105;2.汕頭職業技術學院 計算機系, 廣東 汕頭 515071)

1 引言

近年來各種圖像生成技術不斷出現在大眾視野中,2014年生成對抗網絡(Generative Adversarial Networks,GANs)[1]橫空出世,圖像領域開啟了新的篇章[2-3]。文本生成圖像技術可以根據給定的描述性文本內容生成符合文本語義的視覺真實的圖像。由于具有巨大的應用潛力,近幾年成為熱門研究領域,其中基于生成對抗網絡的方法在最近幾年的研究中成為最熱門的方法。2016年,Reed等人[4]開創性地將GAN應用于文本到圖像的生成任務中,實現了64×64分辨率圖像的生成。2017年,Zhang等人[5]提出層級式生成對抗網絡,使用多個生成器和判別器分階段進行圖像生成。Xu等人[6]在3層生成對抗網絡的基礎上增加注意力機制針對性地對圖像進行細化。雖然上述多階段方法已經取得了顯著的進展,但仍然存在兩個問題。首先,多階段生成對抗網絡模型最終生成圖像的質量在很大程度上取決于初始圖像的質量,低分辨率圖像生成階段本質上是基于上采樣操作來提取特征,卷積操作的局限性可能會導致全局信息被忽略或者遠程語義信息無法進行交互。為此,鞠等人[7]提出的SA-Attn-GAN模型在AttnGAN的基礎上添加了自注意力模塊實現文本到圖像的生成。然而現有的簡單自注意力模型僅根據每個空間上孤立的查詢(Query)和鍵(Key)來獲得注意矩陣,雖然有效利用了遠程的語義信息,但是與Query和Key相關的局部信息容易被忽略,會出現表達能力欠缺的問題。其次,高分辨率特征圖通常是來源于對低分辨率特征圖進行上采樣,上采樣操作很容易失去語義信息。如果這些語義信息包含重要特征,則可能會使生成的圖像與給定的文本特征不符合。

針對上述問題,本文提出一種基于自監督注意和圖像特征融合的文本生成圖像方法SAF-GAN。在初始階段后增加一個自監督注意力模塊[8],充分利用特征之間的上下文關系引導動態注意矩陣,從而增強初始特征表達。同時針對平衡生成質量與文本圖像語義一致性之間的問題,本文提出了特征融合增強模塊,通過使用低分辨率特征對高分辨率特征進行特征融合補充的方式,充分提取語義信息,從而生成逼真的圖像。實驗結果表明,提出的SAF-GAN性能得到了提升。

2 相關理論

2.1 文本生成圖像

2016年以前,文本圖像生成方法主要由變分自編碼器(Variational Autoencoders, VAE)[9]和DRAW[10]主導。雖然可以生成相對合理的圖像,但圖像效果普遍較模糊。2014年,受到“二人零和博弈”的啟發,Goodfellow開創性地提出了生成對抗網絡[1]的網絡模型,一經提出迅速成為熱點研究問題之一。在此基礎上,大量的研究開始將GAN應用到文本到圖像生成的任務中。由于GAN可以不依賴先驗假設,通過自主學習逼近真實樣本的分布,生成的圖像更加清晰真實。2016年,Reed等人[4]提出GAN-INT-CLS模型,通過將文本特征同時加入到生成器和判別器中對模型進行約束,最終實現了64×64分辨率圖像的生成。同年,Reed等人[11]在此基礎上繼續提出GAWWN。為了在確定的位置生成目標圖像,模型標記目標的邊界框和關鍵點,將生成圖像的分辨率提升到了128×128。為了進一步生成高質量圖像以及提高對細節的把控,Zhang等人提出的StackGAN[12]和StackGAN++[5]模型引入了條件增強技術,通過多階段逐級提升的方式將生成圖像的分辨率提升到256×256,有效降低了信息丟失的問題。Xu等人[6]在初始階段,使用句子級全局信息生成低分辨率圖像。然后在細化階段,通過重復采用注意力機制選擇重要單詞,利用單詞級特征細化先前生成的圖像?;贏ttnGAN,文本到圖像的生成技術向前推進了一大步。然而由于文本和圖像模式的多樣性,僅使用單詞級的注意并不能確保全局語義的一致性。后續研究發現,在描述一幅圖像時,文本中每個單詞的重要程度存在差異,因此文獻[13]提出了動態記憶生成對抗網絡(DM-GAN),通過門控機制自適應篩選關鍵語義信息,引入動態記憶模塊細化圖像。

2.2 自注意力機制

自注意力機制[14]最早應用在自然語言處理任務中,是Transformer中的一個重要組成部分。由于能夠捕獲長距離的依賴,可以很好地聯系上下文,研究人員逐漸將其應用于計算機視覺領域。工作的主要原理如下:輸入序列進行線性映射得到3個變換矩陣:查詢矩陣Q、鍵矩陣K、值矩陣V,公式如式(1)所示

其中:WQ、WK、WV均表示線性運算,查詢矩陣和每個鍵矩陣進行點乘,計算兩者的相似性得到一個實數值。使用Softmax對其進行歸一化,得到一個權重系數,最后對V進行加權求和,輸出最終結果。計算公式如式(2)所示:

圖1 自注意力模塊Fig.1 Self-attention module

3 本文提出的網絡模型設計

本文提出了一種端到端的網絡結構,用于對一系列多尺度圖像分布進行建模,如圖2所示。該模型包含3個生成器(G0,G1,G2)和3個判別器(D0,D1,D2)。整體模型呈樹狀結構排列,低分辨率到高分辨率的圖像都是從“樹”的不同分支生成。在每個分支中,生成器只用于捕獲該尺度下的圖像分布,判別器同樣用來估計樣本來自該尺度的訓練圖像而不是生成器的概率,其中包含的3個判別器是并行訓練的,并且每個判別器都集中在單個圖像尺度上。生成器被聯合訓練以近似多個分布,并且生成器和判別器用交替的方式被訓練。最終得到隱特征(h0,h1,h2)作為生成器的輸入,得到不同尺度的圖像。通過在多個尺度上對數據分布進行建模。如果這些模型分布中的任何一個與該尺度的真實數據分布共享支持,則重疊可以提供良好的梯度信號,用來加速或者穩定多個尺度下的網絡訓練。比如,第一個分支的低分辨率圖像分布會產生具有基本顏色和結構的圖像,后續分支的生成器會專注于完成更加高分辨率圖像的特征細化。

圖2 SAF-GAN模型框架圖Fig.2 Frame diagram of SAF-GAN model

圖像編碼模塊使用預訓練模型Inceptionv3[15]。通過Inception-v3網絡中的“mixed_6e”層進行局部特征提取,使用最后一個平均池化層進行全局特征的提取。對于文本嵌入模塊,本文采用雙向長短期記憶網絡(Bi-directional Long Short-Term Memory,Bi-LSTM)[16]學習給定文本的語義表示,產生兩個輸出:句子特征和詞向量特征s∈RD×T。使用條件增強(Conditioning Augmentation,CA)[5]來增強訓練數據得到低維度的文本條件向量隨機選擇一個服從正態分布的高斯噪聲z拼接句子特征,送入上采樣模塊得到第一個分支的隱特征h0:

其中:z≈N(0,1),F0是建立的神經網絡模型,h0表示第1層的隱藏特征。由于最終生成圖像的結果很大程度取決于初始圖像的質量,為此本文在初始特征生成后嵌入自監督注意模塊。最后將經過自監督模塊的包含注意權重的特征送入生成器生成低分辨率圖像,此時的低分辨率圖像包含對象的大致顏色和粗略結構。

3.1 自監督注意力模塊

在傳統的自注意力機制中,任何成對的Q和K都是孤立進行計算,這嚴重忽略了相鄰上下文之間的信息。雖然自注意力機制解決了CNN不能捕獲全局信息的問題,但卻忽略了局部信息丟失所帶來的影響。本文引用CotNet自監督模塊[8],將編碼的鍵與查詢連接起來,使用兩個連續的1×1卷積學習動態注意矩陣,將得到的矩陣乘以輸入值本身,實現輸入的動態上下文表示,最后將靜態表示和動態上下文表示融合作為結果輸出,同時捕獲全局信息和局部信息,提高特征信息的表達能力。

如圖3所示,首先將特征h0轉換為3個變量,其中將V(h0)進行特征映射,Q(h0)和K(h0)依然采用原來的h0:

圖3 CotNet自監督模塊Fig.3 CotNet self-monitoring module

對K(h0)進行3×3分組卷積,獲得局部靜態上下文信息K1∈RC×H×W,將靜態信息K1與Q(h0)拼接,然后使用兩次連續的1×1卷積進行運算,得到的動態注意矩陣如式(5)所示:

其中:Wθ、Wδ表示1×1卷積,[,]表示拼接操作,A表示注意力矩陣。不同于傳統的自注意力,這里的A是Query信息和局部上下文信息交互得到的,增強了自注意機制。將注意力矩陣和V(h0)進行點乘,得到動態上下文表示,計算公式如式(6)所示:

最后與圖像局部靜態上下文信息相加輸出最終特征融合結果,計算公式如式(7)所示:

在圖像細化階段,生成器的輸入不再是噪聲和句子語義特征,而是采用注意力矩陣形成的多模態上下文向量和上階段輸出的隱向量作為輸入:

3.2 多分辨率特征融合

以往特征的融合通常通過加法或級聯來實現,無論內容的變化如何,加法或級聯都會為特征分配固定的權重,不利于特征的最佳融合。因此本文引用注意力特征融合(Attentional Feature Fusion,AFF)[17]對不同分辨率特征進行融合。

圖4 注意力特征融合Fig.4 Attentional feature fusion

其中:Z∈RC×H×W是融合后的輸出特征;(1-M(X⊕Y))和(1-M(X⊕Y))表示融合權重,使網絡可以在X和Y之間進行軟選擇或是加權平均。

將得到的融合特征Z應用到多尺度通道注意力模塊(Mutil-scale Channel Attention Module,MS-CAM)[17],圖5兩個分支分別表示全局特征的通道注意力和局部特征的通道注意力,局部特征的通道注意力L(Z)計算公式如式(10)所示:

圖5 多尺度通道注意力Fig.5 Mutil-scale channel attention module

計算的權重值對輸入特征X做注意力操作得到融合后的特征輸出為h'i:

3.3 SAF-GAN算法流程

本文設計模型如算法1所示。

3.4 目標函數

SAF-GAN模型最終訓練的目標函數包含生成器損失和判別器損失,優化的方式均是通過最小化交叉熵損失進行。

為了處理條件生成任務,本文使用聯合近似條件分布和無條件分布對判別器進行約束,因此本文模型的判別器目標函數由無條件損失和條件損失兩項組成,判別器的損失函數計算公式式(13)所示:

其中:xi表示真實圖像表示生成圖像表示條件信息,在本文模型中表示文本描述;無條件損失用來區分是合成圖像還是真實圖像;條件損失用來確定圖像與給定的文本語義是否一致;Di表示第i個判別器的損失。最終的判別器損失函數為:

生成器的損失函數主要包含兩部分:生成器損失LGi和多模態相似模型損失LDAMSM:

多模態相似模型損失LDAMSM與文獻[6]中的計算方式相同。最終的模型生成器損失函數為:

其中,λ為多模態相似損失的權重。在經過訓練的判別器的引導下,通過最小化上述損失函數優化生成器的聯合近似多尺度圖像。

4 實驗與結果分析

4.1 數據集

為了驗證SAF-GAN模型的性能,在CUB數據集[18]和COCO數據集[19]上進行訓練和測試,數據集具體情況如表1所示。

表1 數據集Tab.1 Dataset

4.2 實驗環境及參數配置

本文實驗環境、實驗超參數的配置見表2。

表2 實驗環境及超參數配置Tab.2 Experimental environment and hyperparameter configuration

4.3 評價指標

Inception Score(IS)[20]和Frechet Inception Distance (FID)[21]得分被廣泛用于評估文本到圖像的生成,因此本文采用這兩個指標作為定量評估標準,并從每個指標的文本描述中生成30 000張。

4.3.1 Inception Score

IS分數是通過條件類分布和邊緣類分布之間的交叉熵差異來評估生成圖像質量的衡量方式,其計算公式如式(17)所示:

其中:x是生成的圖像,y是通過預訓練的Inceptionv3網絡獲得的相應標簽。計算出的IS分數越高,則該模型生成的圖像更具有多樣性和意義。

4.3.2 Frechet Inception Distance

與IS相同,FID也是通過計算生成圖像分布和真實圖像分布之間的 Frechet距離來評估生成樣本的質量,其計算公式如式(18)所示:

FID分數低意味著生成圖像和真實圖像更接近。

4.4 實驗結果與分析

4.4.1 各階段圖像可視化

不同階段的圖像輸出結果如圖6所示。通過圖6可以看出,即使在場景復雜的COCO數據集上,本文的模型依然得到了較好的效果,雖然比不上真實數據集圖像,但是主要的實體內容均能按要求生成。

圖6 各階段生成結果可視化對比Fig.6 Generate visual comparison of results at each stage

以256×256分辨率階段的特征融合為例,如圖7所示。使用上一階段的低分辨率圖像和該階段細化后的特征進行融合,生成圖像比直接使用階段細化的特征更能顯現出細粒度信息特征,生成對象的形狀更加符合真值圖像。

圖7 融合結果可視化Fig.7 Fusion result visualization

4.4.2 指標對比

將提出的SAF-GAN模型與最先進的GAN模型在CUB數據集和COCO數據集上進行同等條件復現實現文本到圖像生成效果的比較,模型包括GAN-INT-CLS[4]、StackGAN++[5]、AttnGAN[6]、SA-AttnGAN[7]、HDGAN[22]、DualAttn-GAN[23]、DAE-GAN[24]、KT-GAN[25]和CSM-GAN[26]。

表3列出了各種模型在CUB數據集上的對比結果,其中SAF-GAN獲得了最高的IS分數,對比基準模型提升了0.31,性能提升了7.1%。FID值從21.48降低到18.03。表4列出了各種模型在COCO數據集上的對比結果,SAF-GAN在COCO數據集上的IS指標的數值達到了28.53,雖然分數較次于KT-GAN,但是對比基準模型依然提升了2.68,而且FID值下降到30.31,達到了對比模型中的最低值。這表明本文模型在CUB數據集和COCO數據集上訓練生成的圖像與真實圖像更加接近,圖像的合成質量與文本的匹配程度更高。綜合比較,本文提出的模型優于其他對比模型,進一步證明本文提出方法的有效性,可以更加精確掌握文本的語義信息來合成有意義的圖像。

表3 CUB數據集的評價指標分數Tab.3 Evaluation index scores of CUB dataset

表4 COCO數據集的評價指標分數Tab.4 Evaluation index scores of COCO dataset

4.4.3 可視化圖像對比

對于定性評估,圖8和圖9展示了AttnGAN、SA-AttnGAN和SAF-GAN(本文方法)模型的合成示例可視化。首先從CUB數據集的可視化結果可以看出,AttnGAN和SA-AttnGAN合成的圖像容易出現語義結構模糊的問題。AttnGAN模型盡管可以生成與文本相關的具有更多細節的圖像,但是缺乏捕捉全局連貫結構的能力,圖像還有些不真實,模型容易生成雙頭或者輪廓粗糙,不具備現實世界中鳥類形狀的圖片。SAAttnGAN模型雖然獲得了更好的分數,但其模型重點通過自注意力來提高網絡性能,而簡單的自注意力使Query和Key相鄰的局部信息被忽略,注意力表示能力欠缺,因此對于圖像的輪廓細節方面不能精準把握,并且生成的圖像存在鳥類實體本身和背景樹枝穿插的情況,這都說明模型對于局部信息把控不到位。本文方法在細節合成方面表現更好,生成的鳥類圖像具備現實的輪廓,并且圖像效果更為清晰。從圖8可以看出,文本所描述的白色的腹部或者藍色的翅膀這些固定的屬性特征均能很好地生成。對于CUB數據集中的真實圖像而言,鳥類圖像的視覺直觀感受均為側視圖,生成器根據真實圖像分布進行對抗生成,因此生成圖像亦均為側視圖。

圖8 CUB數據集生成結果的可視化對比Fig.8 Visual comparison of CUB dataset

圖9 COCO數據集生成結果的可視化對比Fig.9 Visual comparison of COCO dataset

從COCO數據集的可視化結果(圖9)可以看出,當文本描述更加復雜且包含多個對象時,AttnGAN模型生成的圖像清晰度不佳并且出現重影,甚至在第六幅圖像中并沒有出現羊的基本輪廓。SA-AttnGAN可以捕獲一些細節特征,但是僅包括生成實體的大概形狀,并且清晰度僅優于AttnGAN模型,真實性有待加強。而本文方法可以更好地捕捉主要對象,并且能以更有意義的方式排列內容,生成更具有全局結構的圖像。這證明在初始圖像特征后面加入自監督注意力模塊,不僅可以捕獲圖像的遠程依賴關系,而且結合了局部上下文信息,使圖像特征在生成過程中更加有針對性,解決了以往僅由卷積運算特征所帶來的局限性,模型可以提取豐富的上下文信息,保證了語義的合理性。

4.4.4 生成過程細節展示

為了更直觀地說明本文方法的有效性,本文以CUB數據集為例,生成圖像的細節如圖10所示。其中“this bird has a white belly and breast with a short pointy bill and yellow crown”為輸入模型的文本信息,分別生成64×64、128×128、256×256分辨率的圖像。初始階段首先生成64×64的低分辨率圖像,此時生成的低分辨率圖像通常只包含生成對象的大概形狀,缺少包含具體特征的細節內容。后續使用單詞級注意力糾正上一階段的缺陷,添加更多的細節生成更高分辨率的圖像。后面階段生成器生成圖像的一些子區域可以直接從前一階段生成的圖像中推斷出來。這些子區域在注意力圖中顯示為黑色。對于不能直接推斷出的區域(如文本描述中對象固有的屬性),注意力分配給與它們最相關的單詞(圖10中的亮區域)。因此,從單詞上下文特征和先前圖像特征兩者可以推斷出注意力更新后的圖像特征。圖10中兩個注意力權重圖像分別為基準模型AttnGAN(圖10左)以及本文改進的SAF-GAN模型(圖10右)。由圖中亮色區域可以看出,AttnGAN模型對于單詞的注意力分配的定位過于寬泛,單詞與單詞的重復定位容易造成關鍵特征空間重合,導致圖像的前景與背景不能很好地分離(樹枝與鳥的身體存在穿插現象)。而本文模型對于關鍵點的定位區域更加精確,模型通過自監督注意力增強關鍵特征,減少非必要特征對模型的影響,增加了生成圖像的輪廓飽和度。

圖10 注意力權重的可視化展示Fig.10 Visual presentation of attention weights

4.4.5 特征融合補充效果展示

使用多階段生成對抗網絡進行圖像生成的模型,其生成的初始圖像雖然是模糊的,但卻包含了生成對象的大概形狀以及對生成對象基本的顏色定義,因此在提煉高分辨率圖像時,除了將輸入單詞作為限制條件之外,更應該通過將低分辨率圖像和高分辨率融合的方式來維護生成圖像的語義一致性。

通過應用低分辨率和高分辨圖像進行融合的網絡結構,基線模型中存在的整體圖像顏色不一致問題和結構清晰度問題都得到了改善,生成圖像的細節更加完善。比如圖11中的第1列,加入特征融合模塊的模型在整體形狀和顏色方面與真實數據圖像都具有高度的一致性;又如圖11中的第三列,基線模型中文本描述的語義并沒有得到準確的刻畫。加入特征融合模塊后,生成圖像準確地刻畫了文本所描述的內容(生成圖像既包含風箏又包括人)。其次,生成的圖像也具備了良好的邏輯關系(人牽著風箏,風箏在天上飛)。這更加直接地證明了在不同階段特征生成模塊中融合前一階段圖像特征的重要性。

圖11 特征融合補充效果可視化展示Fig.11 Visual display of feature fusion supplementation effect

4.4.6 消融實驗

為了進一步驗證本文提出的自監督模塊(CotNet)和圖像特征融合模塊(AFF)的有效性,分別設計了AttnGAN、AttnGAN+CotNet、AttnGAN+AFF、AttnGAN+CotNet+AFF 4組對比實驗。通過表5、表6數據可知,引入CotNet模塊、AFF 模塊對生成效果均起到促進作用,同時添加了CotNet和AFF模塊的SAF-GAN在CUB數據集和COCO數據集上的圖像生成質量要明顯優于只添加AFF或只改進CotNet模塊圖像生成的質量,通過疊加可以達到本文的最佳結果。對于CUB數據集,基準模型的IS分數從4.36提升到4.67,FID分數也從最初的21.48降低為18.03。對于COCO數據集,基準模型的IS分數從25.85提升到28.53,FID分數從最初的35.49降低為30.31,證明各模塊組件真實有效。

表5 CUB數據集消融實驗的結果對比Tab.5 Comparison of results on CUB dataset

表6 COCO數據集消融實驗的結果對比Tab.6 Comparison of results on COCO dataset

5 結論

本文提出一種基于自監督注意和圖像特征融合的文本到圖像生成模型SAF-GAN。在AttnGAN模型的基礎上引入CotNet自監督模塊對特征進行約束,充分利用特征之間的上下文關系引導動態注意矩陣,將上下文挖掘和自注意學習結合,增強初始特征表達,使后續圖像細化階段效果更佳。并且加入了特征融合增強模塊,使低分辨率特征與高分辨率特征并行融合。低分辨率特征圖雖然空間比較粗糙,但是包含了圖像的整體結構特征,模型可以充分提取語義信息,從而生成逼真的圖像。實驗結果表明,本文模型生成的圖像真實合理,客觀上通過IS和FID指標對比也證明了本文方法的有效性。

猜你喜歡
低分辨率注意力語義
紅外熱成像中低分辨率行人小目標檢測方法
基于偏移學習的低分辨率人體姿態估計
讓注意力“飛”回來
語言與語義
樹木的低分辨率三維模型資源創建實踐
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
基于插值和多幀重建的圖像超分辨分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合