?

基于Swin Transformer生成對抗網絡的圖像生成算法

2024-02-28 08:18省海先
小型微型計算機系統 2024年1期
關鍵詞:集上注意力模塊

王 軍,高 放,省海先,張 宇

(沈陽化工大學 計算機科學與技術學院,沈陽 110142)

0 引 言

圖像生成是計算機視覺與圖形學的基本研究方向之一,其任務是通過生成模型來合成預期圖像.如何產生高分辨率、高質量的圖像是一個困擾計算機圖形學領域研究者的問題.近年來,隨著硬件設備的不斷更新,算力不斷增強,基于深度神經網絡的生成模型--生成對抗網絡(GAN)[1,2]也在快速發展.

GAN在2014年由Goodfellow等[3]人首次提出,這是一種無監督學習方法,基本思想源自博弈論,其結構由一個生成器和一個判別器組成,二者通過對抗學習的方式訓練,目的是學習觀測數據樣本的分布并生成新的數據樣本.近年來,生成式對抗網絡的研究和應用不斷獲得成功,已經成為當前深度圖像生成領域研究的熱點.它被廣泛應用于計算機視覺領域,如超分辨率任務SRGAN[4],風格遷移任務Cycle GAN[5]等,并且在這些任務中,GAN均表現出比傳統模型更優的效果.但是,GAN也存在訓練不穩定、梯度消失、模式坍塌等問題.

NVIDIA研究員2017年提出了StyleGAN[6],通過一種漸進增大的方式訓練GAN,從低分辨率開始逐步添加新的層次,從而在訓練進展中增加更精細的細節.這種訓練方式既加快了訓練速度,又能增加訓練的穩定性,從而能夠制作出前所未有的質量的圖像.2019年也是NVIDIA研究員提出了改進的StyleGAN[7],主要解決StyleGAN存在的液滴偽像問題和切變不變性問題;并提出感知路徑長度作為一種評價圖像質量的指標,感知路徑長度越低生成器性能越好.NVIDIA在2019年在GTC大會的時展示最新AI藝術生成對抗網絡GauGAN2[8],結合了分割映射、圖像修復和文本到圖像生成功能,使其能夠根據文本和手繪,來創建逼真的藝術,可從文本生成精確風景圖,生成更多種類以及更高品質的圖像.但其應用了Nvidia Selene超級計算機,并且使用1000萬張高品質風景圖進行訓練,受到資源限制一般研究者無法復現.StyleGAN-XL[9]利用強大的神經網絡先驗和漸進式增長策略,成功地在ImageNet上訓練最新的StyleGAN3生成器,將StyleGAN擴展到大型多樣化數據集,并首次在 ImageNet 下生成分辨率為10242的圖片.以上NVIDIA對GAN的改進提升了性能,達到了前所未有的效果,但是其依賴于巨大的計算量,消耗了令人難以想象的資源和電力,訓練效率低.StyleGAN網絡需要在多個顯卡的設備上進行訓練,為了更好的適應大眾單顯卡的設備,本文提出在一塊顯卡的終端設備上進行訓練的模型,沒有采用StyleGAN這種復雜的網絡.

生成對抗網絡使用對抗性學習方法進行訓練,可以在不借助外在條件約束的情況下達到最優效果,但優化過程面臨著一個很大的挑戰:即如何平衡生成器和判別器的性能,最終收斂在全局最優點.具有高精度的鑒別器可能產生具有很少信息的梯度并導致模式崩潰問題,但弱鑒別器不能更好地引導生成器提高其學習能力.針對模型不收斂和模式坍塌的問題,本文將Swin Transformer機制[10]引入到判別器中提高判別能力,并使用自注意力[11,12]代替卷積神經對生成器加以改進,提出一種基于Swin Transformer的生成對抗網絡——STGAN(Swin Transformer Generative Adversarial Network),旨在平衡生成器和判別器性能,解決模型訓練不穩定性、訓練效率低等問題.具體從以下幾個方面進行改進:

1)針對生成圖像缺乏遠距離像素之間的關系問題,在生成網絡中加入自注意力模塊,捕捉全局的信息來獲得更大的感受野解決長距離依賴問題.

2)在判別網絡中引入Swin Transformer機制,將注意力的計算限制在每個窗口內,減少了全局注意力計算量,降低訓練的成本,提高訓練效率.

3)在生成網絡中使用譜范數規范化[13],能夠更好地將模型與訓練數據進行擬合,并且采用Wassertein 距離[14]作為網絡的距離衡量方式有效地解決梯度消失/爆炸的問題.

1 相關內容

1.1 生成對抗網絡

GAN是一種基于深度學習的圖像生成技術[15],它由兩個部分組成:生成器和判別器.生成器是一種生成模型,用來學習真實圖片的概率分布從而生成以假亂真的圖片.判別器是一種判別模型,用來識別真實圖片和生成的假圖片并判別生成器的輸出和真實數據概率分布的相似情況.生成器的輸入是一定長度的隨機噪聲;輸出是一張假的圖片.判別器的輸入是真實圖片和生成的假圖片;輸出是一個范圍在0到1之間的標量,輸出的標量值越大,對應生成的圖片更加真實.生成器和判別器形成動態的對抗訓練,最終模型收斂在納什均衡點.

生成對抗網絡原理如圖1所示:隨機向量作為生成器的輸入數據產生一個新的向量fake,同時從數據集中隨機選擇一張圖片轉化為向量x.fake或者x輸入判別器后,判別器經過計算輸出一個0到1之間的數值,該數值表示輸入圖片為真實圖片的概率,真圖片概率為1,假圖片概率為0.

圖1 生成對抗網絡結構圖Fig.1 Generate adversarial network structures

原理見公式(1):

fake=G(z)

(1)

score=D(G(z),0) or D(x,1)score∈(0,1)

(2)

式中D為判別器,G為生成器.

原始生成對抗網絡模型的優化函數表示為公式:

(3)

式中Pdata(x)為真實數據的分布,Pz(z)為噪聲分布.

判別器模型的優化函數表示見公式(4):

(4)

判別器損失函數使用交叉熵損失函數計算損失,進行梯度反向傳播.其中D(x)表示判別器對真實樣本進行判別,判別結果越接近于1則真樣本預測結果越好.而對于生成的樣本G(z),判別器的判別結果D(G(z))越接近于0則優化效果越好.預期目標是得到最大的總數值,也就是最大化目標函數.

生成器模型的優化函數表示見公式(5):

(5)

在完成判別器的優化后,需要對生成器進行優化.只要讓判別的結果D(G(z))接近于1就可以了.預期目標是得到最小的總數值,也就是最小化目標函數.

1.2 Swin Transformer模型

Swin Transformer是一種帶移動窗口的自注意力模型.使用劃分窗口的方法將自注意力的計算限制在一個局部的窗口中,同時使用滑窗機制增加了相鄰窗口之間的聯系,這種方式在獲得近乎全局注意力能力的同時,又將計算量從圖像大小的平方關系降為線性關系,大大地減少了運算量,提高了模型推理速度;另外通過特征融合的方式,每次特征抽取之后都進行一次下采樣,增加了下一次窗口注意力運算在原始圖像上的感受野,從而對輸入圖像進行了多尺度的特征提取,進行特征圖分層計算.

Swin Transformer模塊是該模型的主要組成部分,一個Swin Transformer模塊由一個基于Shifted Window的多頭自注意力模塊MSA、一個兩層中間帶有GELU非線性激活函數的多層感知機MLP組成.在每個MSA和MLP之前,還應用了一個歸一化層LN,并在每個模塊之后都應用了一個殘差連接.如圖2所示,連續的兩個Swin Transformer塊的計算過程見公式(6)~公式(9):

(6)

圖2 Swin Transformer模塊結構圖Fig.2 Swin Transformer module structure

(7)

(8)

(9)

Swin Transformer的提出解決了Transformer模型從自然語言處理領域應用到計算機視覺領域應用[16]的兩大挑戰:視覺實體變化大和計算圖像像素全局自注意力所需計算量大.通過不斷地調整每一層感受野的大小來產生分層特征圖,能夠更好地建模不同尺寸的物體,同時Swin Transformer在計算自注意力階段具有線性復雜度.目前該模型已經在圖像分割、目標檢測等領域霸榜,讓計算機視覺研究者們看到了Transformer完全替代CNN的可能性.

2 基于Swin Transformer的生成對抗網絡

本文提出的基于Swin Transformer的生成對抗網絡(STGAN)由兩部分構成:第1部分是引入注意力機制和譜范數規范化的生成網絡,第2部分是引入Swin Transformer機制的判別網絡.

2.1 STGAN模型結構

2.1.1 生成網絡

STGAN的生成網絡模型結構如圖3所示,采用4層逆卷積神經網絡進行上采樣.首先將100維的噪聲作為生成網絡的輸入,經過第1個CSBR模塊入進行上采樣得到(512,4,4)的特征圖,再經過第2個CSBR模塊進行上采樣后得到(256,8,8)的特征圖,經過第3個CSBR模塊進行上采樣后得到(128,16,16)的特征圖,將其送入自注意力模塊進行計算,與原始只用卷積的模型不同,引入自注意力模塊計算特征圖中每個向量間的相關性,捕捉全局的信息來獲得更大的感受野解決長距離依賴問題.之后再經過一個CSBR模塊對特征圖進行上采樣,將得到的(64,32,32)特征圖再進行一次自注意力的計算,進行自注意力計算不改變特征圖的尺寸.最后再經過一次逆卷積操作并使用Tanh激活函數,輸出64×64像素的三通道圖片.

圖3 生成器網絡結構圖Fig.3 Generator network structure

CSBR模塊結構如圖4所示,該模塊由逆卷積、譜范數規范化、批量規范化和Relu激活函數組成.其中,在生成網絡中加入譜范數規范化,引入利普希茨連續性約束,使神經網絡對輸入擾動具有較好的非敏感性,從而使訓練過程更穩定、模型更容易收斂.

圖4 CSBR模塊結構圖Fig.4 CSBR module structure

在生成網絡最后兩次上采樣后加入自注意力機制,自注意力機制在某種程度上可以增加感受野,擴大感受范圍,使模型能盡可能把握全局的特征,而不是圖像中的局部特征,從而生成更加逼真的圖像.自注意力機制的計算過程如圖5所示,可以表示為公式10,其中Q是查詢向量,K是鍵向量,V是值向量,“·”表示點積運算.

圖5 Self-Attention機制結構圖Fig.5 Self-Attention mechanism structure

圖6 判別器網絡結構圖Fig.6 Discriminator network structure

Attention(Q,K,V)=Softmax(Q·KT)·V

(10)

2.1.2 判別網絡

與生成網絡結構相反,STGAN的判別網絡采用三階段的Swin Transformer模塊,其模型結構如圖 6所示.首先將64×64像素的三通道照片作為判別網絡的輸入,對其進行分塊操作并添加相對位置編碼,原來張量的維度是(64,64,3),經過分塊操作之后,每個張量的維度的大小就變成了(16,16),尺寸縮小了4倍,通道數增大了16倍,將張量通道維度上進行拼接,得到的張量的大小就變成了(16,16,48).第1階段,在進入Swin Transformer模塊之前還需進行線性嵌入,即使用卷積將張量通道數48維映射到96維,張量維度是(16,16,96),經過Swin Transformer模塊計算窗口注意力,輸出和輸入維度保持不變.之后進入第2階段,首先做兩倍的下采樣縮小分辨率,并調整通道數從而形成不同尺寸的特征圖,構建層級的Transformer,因此,網絡可以學習多尺寸的特征信息;之后再經過Swin Transformer模塊得到(8,8,192)的張量.在第3階段完成后,得到(4,4,384)的張量,將其展開成6144維向量,輸入全連接層使用Sigmoid激活函數將輸出限制在0~1之間,用來表示真實圖片的概率.

2.2 基于移動窗口的自注意力計算

為了方便計算圖像的自注意力,采用在局部窗口內計算自注意力,窗口以非重疊的方式均勻地分割圖像.雖然這種方式雖然很好的解決了內存和計算量的問題,但是窗口與窗口之間無法進行信息交互,達不到全局建模的效果,限制了模型的能力.

本文提出的STGAN模型采用基于移動窗口的方式進行自注意力的計算,先使用劃分窗口的方法將自注意力的計算限制在一個局部的窗口中,與這一過程相對應的是Swin Transformer模塊中的W-MSA;然后使用滑窗機制增加了相鄰窗口之間的聯系,與這一過程相對應的是Swin Transformer模塊中的SW-MSA.計算過程分為:特征圖移位和自注意力掩碼兩部分.

2.2.1 特征圖移位操作

首先對圖像進行分塊和常規的窗口劃分,如圖7所示,左邊的特征圖有4個窗口(每個窗口有4×4個小塊),在移動窗口后得到9個窗口,這種移位窗口的方式,使得相鄰的窗口可以進行信息交互.但是移動后窗口數量增加,而且每個窗口的大小也不是完全相同,這種方式無疑增加了自注意力計算復雜度.為了方便計算各窗口自注意力,本文采用一種掩碼的方式計算注意力.

圖7 循環位移Fig.7 Cyclic slide

2.2.2 自注意力掩碼

采用掩碼的方式進行自注意力的計算,其目的是在不增加計算復雜度的同時計算出移動窗口后各窗口的自注意力值.讓一個窗口中不同的區域之間能用一次前向過程就能把自注意力就算出來,而相互之間都不干擾.具體過程如圖8所示.

圖8 窗口劃分和掩碼設置Fig.8 Window partition and Mask settings

STGAN判別模型使用循環移位和掩碼操作的方式,以64×64分辨率的圖片為例,劃分窗口大小為4×4,循環移位步長為2,如圖2所示,在W-MSA內進行常規的自注意計算,之后對特征圖進行循環移動,在SW-MSA內進行帶掩碼的自注意力計算.這種做法,既保證了移動窗口后窗口的數量保持不變,也保證了每個窗口內的塊數量不變,實現了一次前向計算過程就能計算出所有窗口自注意力值,同時增多了局部窗口間的信息交互,增大了感受野,更好地提高了網絡的學習能力.

2.3 STGAN模型訓練

2.3.1 損失函數

與原始GAN不同的是,STGAN網絡采用Earth-Mover(EM)距離取代Jensen-Shannon(JS)距離[17]計算損失值,并在判別模型加入梯度懲罰將判別模型的梯度限制在一定范圍內.結合傳統GAN,EM距離和梯度懲罰,STGAN的目標函數表達式可以表示為公式(11):

(11)

其中,Pr表示的是真實數據的分布,Pg表示由模型產生出來的產生出來的分布,表示梯度,λ表示懲罰權重,Uniform[0,1]表示0到1的均勻分布.

2.3.2 超參數設置

為了使STGAN模型達到最優效果,訓練時超參數設定為:使用Adam優化器[18],其中β1=0.5,β2=0.9,生成器和判別器使用相同的初始學習率α=0.0001,判別器每迭代5次則更新迭代1次生成器,并且訓練過程中采用warmup技術[19],隨著迭代次數的增加,學習率逐漸減小,最小學習率設置為0.000001,Batchsize大小設置為256,另外使用EM距離作為損失函數,并引入梯度懲罰,懲罰權重λ為10.模型訓練偽代碼如算法1所示.

算法1.STGAN

定義:最大迭代次數為N;批量大小為m

for n=1 → N do//n表示迭代次數

Sample m examples {x1,x2,…,xm} from dataset;

Sample m noise samples {z1,z2,…,zm} from Gaussian distribution;

if(n % k==0)then//k 表示更新k次判別器之后更新一次生成器;

Sample another m noise samples {z1,z2,…,zm} from Gaussian distribution;

end if

end for

3 實驗方法和結果分析

本節共分為3個部分,首先介紹實驗環境和評價指標,然后分別給出STGAN在CelebA數據集[20]和LSUN數據集[21]上的性能并與最新的模型比較,從實驗結果可以看出STGAN模型生成的圖片具有非常高的自然度和逼真度,有效地提升了生成圖像的質量和真實性.

3.1 數據集和實驗環境

3.1.1 數據集介紹

為檢驗STGAN模型的準確性,分別在CelebA數據集中和LSUN數據集中開展對照試驗.其中,CelebA是由香港中文大學公布的大型人臉屬性的數據集,該數集共收錄了10177位名人的202599個人臉圖片.LSUN數集則是由加州大學伯克利分校于2015年公布的大型圖像數據集,它包含10個場景類別和20個對象類別,總計約100萬個標記圖像.

3.1.2 實驗環境介紹

本實驗使用Pytorch深度學習框架進行實驗,并在CUDA平臺使用CUDNN加速庫進行深度神經網絡的訓練.具體實驗環境如表1所示.

表1 實驗環境Table 1 Experimental environment

3.2 評價指標

在圖像生成任務中,為了獲得高質量的生成圖像,需要對生成圖像的質量進行度量.主要從兩個方面考慮:一是圖像本身的質量,圖像是否清晰、內容是否完整、是否真實等;二是生成圖像的多樣性,生成的圖像不能只是一種或幾種類型的圖像,而應該具有不同的風格和不同的類別.

本實驗采用IS(Inception Score)和FID(Fréchet Inception Distance)兩種評價標準從不同方面評估生成圖片的質量.IS是生成圖像領域最常用的評估指標之一,它客觀地從圖像的生成質量和多樣性兩方面進行評估.IS的計算公式為:

IS(G)=exp(Ex~pgDKL(p(y|x)‖p(y)))

(12)

其中,G表示生成器,E表示期望,x~pg表示x是從pg中生成的圖像樣本,DKL表示兩分布間的KL散度,y表示合成圖像的預測標簽.IS得分越高,說明生產圖像的質量越高,多樣性越豐富.

FID也是該領域常用的指標之一,它用來描述兩個數據集之間的相似性程度,FID值越小,則相似程度越高,模型效果越好.其計算公式表示為:

(13)

其中,xr,xg表示真實圖像和生成圖像,μxr,μxg表示各自特征向量的均值,∑xr,∑xg表示各自特征向量的協方差矩陣,Tr表示矩陣的跡(矩陣對角元素之和).

3.3 消融實驗

為了驗證本文模型改進的有效性,分別對判別器中Swin Transformer模塊層數以及模型輸入圖像大小進行消融實驗.表2、表3展示了迭代100個周期,使用相同的學習率和優化器所測得的實驗結果.從中可以看出,本文提出的STGAN模型均取得好的表現,其中當模型輸入圖像大小為96×96時模型提升的效果最明顯.

表2 判別網絡層數消融實驗結果Table 2 Discriminator layers ablation experiment results

表3 模型輸入大小消融實驗結果Table 3 Model input size ablation experimental results

3.4 實驗結果和分析

本實驗使用的STGAN模型、原始GAN模型、Wasserstein GAN(WGAN)[22]模型以及Self-Attention Generative Adversarial Networks(SAGAN)[23]模型參數量如表4所示,原始GAN和WGAN模型參數一樣,卻別在于損失函數不同;STGAN模型的生成器和判別器參數量基本上相等,在一定程度上平衡了二者的學習性能.

表4 模型參數量Table 4 Amount of model parameters

3.4.1 CelebA數據集上的實驗

在人臉生成任務中最常用的就是CelebA數據集,該數據集的圖片尺寸是178×218像素,在本實驗中先將每張圖片經過中心裁剪之后再調整到64×64的大小,數據集的202599張照片全部用做訓練集.

為了進一步驗證本文提出模型的有效性,將STGAN模型與原始GAN模型、WGAN模型以及SAGAN模型在CelebA數據集進行對比實驗.Batchsize大小為256,初始學習率為0.0001,模型迭代100個周期,將近80000次,時間各約12小時,使用Tensorboard工具對判別器損失值進行可視化,如圖9所示,上面的曲線為SAGAN模型,下面的曲線STGAN模型,橫軸表示迭代次數,縱軸表示損失值大小.為了更清楚觀察損失值的整體變化趨勢,對損失值做了平滑處理.可以清晰地看出,STGAN的損失值比SAGAN下降快并且最終穩定在0.06,比SAGAN損失值低了0.01.證明了在判別器中引入Swin Transformer機制可以加快模型收斂速度,降低判別器的損失.

圖9 CelebA數據集上SAGAN和STGAN的判別器損失變化圖Fig.9 Variation graph of discriminator losses for SAGAN and STGAN on the CelebA dataset

圖10展示的是STGAN模型在CelebA數據集上訓練輪數分別為0,20,40,60,80,100所生成的人臉圖像.訓練輪數為0時,圖像含有大量噪聲,圖像模糊,只能看出人臉的大概輪廓;當訓練輪數為20和40時,出現圖像扭曲,人臉左右不對稱等問題,但圖像比上一階段清晰;當訓練輪數達到60和80時,圖像質量優于上一階段,只有少數圖像出現扭曲的問題;當訓練次數達到100時,生成圖質量清晰,種類不同.從整個訓練過程生成圖像可以看出,本文提出的STGAN模型生成圖像的質量一直在提升,最終生成了高質量多種類的人臉圖像,并且沒有出現梯度消失,模式坍塌等問題.

圖10 STGAN在CelebA數據集上不同訓練輪數生成的圖像Fig.10 Images generated by STGAN on the CelebA dataset with different number of training rounds

表5列出了STGAN模型、原始GAN模型、WGAN模型以及SAGAN模型在CelebA數據集上進行測試所取得的評估結果對比.結果表明,本文提出的STGAN模型IS值比原始GAN高了0.1925,比SAGAN模型高了0.0941,分別提高了8.3%和3.9%;其FID值比原始GAN模型低了21.0211,比SAGAN模型低了2.5266;相比之下,STGAN生成的圖像質量更好,生成的圖片和真實圖片相似程度更高.

表5 CelebA數據集上不同模型的FID值和IS值Table 5 FID values and IS values for different models on the CelebA dataset

3.4.2 LSUN數據集上的實驗

本實驗使用LSUN數據集中教堂類別的數據進行訓練,其中包括126227個訓練圖片和300個驗證圖片.該數據集圖片尺寸大小不一,無法適應固定輸入的網絡,因此在加載圖片時先對每張圖片進行中心裁剪,尺寸為240×240,之后再調整到64×64的大小.

為了進一步驗證本文提出模型的有效性,將STGAN模型與原始GAN模型、WGAN模型以及SAGAN模型在LSUN數據集進行對比實驗.Batchsize大小為256,初始學習率為0.0001,在模型迭代100個周期將近50000次之后判別器的損失變化如圖11所示,上面的曲線為SAGAN模型,下面的曲線為STGAN模型,為了更清楚觀察損失值的整體變化趨勢,對損失值做了平滑處理.可以清晰地看出,STGAN的損失值比SAGAN下降快,最終穩定在0.08,而SAGAN模型損失穩定在0.1.這個實驗證明了將Swin-Transformer引入判別器中可以有效地降低判別損失、提高判別器的能力,從而對生成器產生更好的反饋.

圖11 LSUN數據集上SAGAN和STGAN的判別器損失變化圖Fig.11 Variation graph of discriminator losses for SAGAN and STGAN on the LSUN dataset

圖12展示的是STGAN模型在LSUN數據集的教堂類別圖像上訓練輪數分別為0,20,40,60,80,100所生成的教堂圖像.從整個訓練過程可以看出,生成圖片由模糊逐漸變得清晰,由殘缺變得完整,經過100次訓練后可以生成多種不同風格且清晰的教堂圖片.由此可以說明,模型可以穩定的訓練,并且沒有出現模式坍塌、梯度消失、不收斂等問題.

圖12 STGAN在LSUN數據集上不同訓練輪數生成的圖像Fig.12 Images generated by STGAN on the LSUN dataset with different number of training rounds

表6列出了STGAN模型、原始GAN模型、WGAN模型以及SAGAN模型在LSUN數據集上進行測試所取得的評估結果對比.結果表明,在LSUN數據集上WGAN模型性能最差;本文提出的STGAN模型IS值比原始GAN高了0.32,比SAGAN模型高了0.0343,分別提高了13%和1.24%,生成的圖像質量更好;其FID值比原始GAN低了17.016,比SAGAN模型低了5.4476,生成的圖片和真實圖片相似程度更高.

表6 LSUN數據集上不同模型的FID值和IS值Table 6 FID values and IS values for different models on the LSUN dataset

通過在CelebA和LSUN數據集上分別與原始GAN、WGAN以及SAGAN模型進行對比實驗,從實驗結果可以看出,在兩個完全不同的數據集上STGAN模型的性能都優于其它對比模型,生成的圖片都具有非常高的自然度和逼真度,充分證明了本文提出的STGAN模型的有效性.

4 總結與展望

本文提出了一種基于Swin Transformer生成對抗網絡的圖像生成方法——STGAN.通過將Swin Transformer機制引入到判別器,不斷地調整每一層感受野的大小來產生分層特征圖,在減少計算量的同時增強判別器的判別能力.此外,為了平衡生成器和判別器的性能,將自注意力機制引入生成器并使用譜范數規范化,提高生成器的性能,從而提高生成圖像的質量.通過在CelebA數據集和LSUN數據集上與SAGAN等模型的實驗對比,表明STGAN模型的訓練穩定性和生成圖像的質量都有所提高.但本文依然存在生成圖像的分辨率較小的問題,下一步需要對模型繼續進行改進,以生成更高分辨率的圖像.

猜你喜歡
集上注意力模塊
28通道收發處理模塊設計
“選修3—3”模塊的復習備考
讓注意力“飛”回來
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
復扇形指標集上的分布混沌
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
幾道導數題引發的解題思考
集成水空中冷器的進氣模塊
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合