?

融合XLnet與DMGAN的文本生成圖像方法

2024-03-05 08:15趙澤緯車進呂文涵
液晶與顯示 2024年2期
關鍵詞:特征向量編碼器單詞

趙澤緯, 車進, 呂文涵

(寧夏大學 物理與電子電氣工程學院, 寧夏 銀川 750021)

1 引言

文本生成圖像是一種跨模態的研究任務,這中間主要應用自然語言處理(NLP)和計算機視覺(CV)兩個研究領域。變分編碼器(VAE)[1]、自回歸模型[2]、生成對抗網絡(GANs)[3]等深度學習網絡的引入,為文本生成圖像奠定了基礎。盡管變分編碼器是第一個通過輸入信息的潛在表達生成樣本的深度圖像生成模型,但是由于注入噪聲和VAE模型重建不完整,生成的圖像模糊。自回歸生成模型如pixelRNN[4]、pixelCNN[5]和pixelCNN++[6]比VAE更加有效。由于沒有額外的噪聲,pixelRNN需要較長的訓練時間,并且由于像素值計算錯誤,pixelCNN遺漏了某些像素。為了避免pixelCNN中的盲點問題,piexlCNN++使用層之間的殘留連接。盡管如此,由于圖像的順序(像素到像素)生成,自回歸生成模型缺乏可伸縮性[7]。此后,學者們使用生成對抗網絡GAN生成與真實圖片相似的圖片。GAN網絡由生成器和鑒別器兩部分組成。先用生成器生成新的圖片,然后用鑒別器鑒別生成的圖片是生成的圖像還是真實圖片[3]。在注釋良好的圖像數據集上訓練的GAN可以生成接近非常真實的新圖像。GAN要學習高度復雜的數據分布,但由于不收斂和模態坍塌等原因,訓練難度較大。Zhang等[8]提出了具有兩級GAN結構的StackGAN。Stack-GAN中的第一階段是生成低分辨率的只能看出物體大體形狀和顏色的圖像;第二階段對此圖像進行細化,生成高分辨率圖像。StackGAN++[9]使用多個生成器和判別器生成256×256的圖片。這兩種GAN網絡都不以全局句子向量為條件,因此圖像生成缺少細粒度的單詞級信息,生成的圖像不能令人滿意。為解決這一問題,Xu等[10]提出了AttnGAN,利用深度注意多模態相似度模型(DAMSM)和注意力機制來描繪圖像的局部區域。雖然這些方法取得了顯著進展,但仍存在生成圖像質量取決于初始圖像,以及無法細化輸入句子中每個單詞描述圖像內容的不同層次信息兩個問題。為此,Zhu等[11]提出了DMGAN,增加一種內存機制處理不良的初始圖片,引入內存寫入門,動態選擇與生成圖像相關的單詞。但是DMGAN的文本編碼器還是使用RNN編碼器,由于RNN的順序性質,在從單詞嵌入中提取文本語義時,會忽略一些單詞,導致圖像屬性的損失,使重要信息被省略,最終生成的圖像和文本存在語義不一致的問題。

在圖像生成的同時,文本編碼方法也在日新月異,從最初Uchida等[12]提出的word2vec,簡單地生成詞向量,到經典神經網絡的RNN[13-14]的提出,此網絡擁有優秀的并行能力和雙向提取文本特征能力。Ashish等[15]提出Transformer模型,使用自注意力機制對文本信息進行編碼。隨后加強版的Transformer即BERT[16]出現,將文本進行雙向編碼,能夠更好地挖掘文本信息。但是BERT在建模時,過度簡化了一些高階特征及長距離token語義依賴。針對這些問題,Yang等[17]提出XLnet(Generalized Autoregressive Pretraining for Language Understanding)模型,利用XLnet將自回歸模型固定的向前或者向后替換為最大序列的對數似然概率期望,使上下文的token都能被每個位置的token所使用,并使用一種乘積方式來分解預測tokens的聯合概率,繼而消除BERT的token之間的獨立假設,實現對文本信息的進一步挖掘。

針對DMGAN文本編碼階段的不足,引入XLnet編碼器對文本進行編碼,使DMGAN模型在初始階段獲取更多的文本信息,有利于生成更高質量的圖片,并在圖像生成的初始階段和圖像細化階段均加入高效通道注意力[18](ECA)來進一步提高生成圖像質量。

2 相關知識

2.1 DMGAN

DMGAN在AttnGAN的基礎上進行改進,用一種動態記憶模塊替換AttnGAN中注意力機制,生成更加生動形象的圖像。DMGAN體系結構主要有深度注意多模態相似度網絡(DAMSM)和圖像生成網絡。

DAMSM計算DMGAN模型生成的圖像與輸入文本在單詞級別上的相似性。訓練DAMSM使圖像文本相似度最大化。圖像生成網絡包含初始圖像生成和細化圖像兩部分。初始圖像生成階段是指文本通過文本編碼器獲得其語句特征,然后將語句特征和隨機噪聲融合,再通過一個全連接層和4個上采樣層生成初始圖像;圖像細化階段由記憶寫入、鍵尋址、鍵值讀取和鍵值響應4個部分組成。每次細化后圖像像素值翻倍,本文最后實現像素值為256×256的圖像。

2.2 XLnet

XLnet是一種雙向捕獲上下文的自回歸模型。該模型訓練句子中對所有可能的單詞排列,而不是默認的從右到左或者從左向右排列。XLnet將BERT雙向編碼的優點和LSTMs等序列模型的遞歸函數結合,解決了BERT固定句子大小的限制。XLnet將文本視為塊狀,概率預測信息在這些塊中傳遞,實現對每塊信息的內容和位置的預測。

2.3 ECA通道注意力機制

ECA通道注意力機制是在SE通道注意力機制上的改進。SE通道注意力機制會對輸入特征圖進行壓縮,不利于學習通道之間的依賴關系。為了避免降維,ECA通道注意力機制用一維卷積實現了局部通道交互,具體操作分以下3步:(1)對輸入的特征圖進行全局平均池化操作;(2)進行一維卷積操作,然后用sigmoid函數進行激活得到各個通道的權重;(3)將權重和原始輸入特征圖進行相乘操作,得到輸出特征圖。ECA通道注意力機制示意圖如圖1所示。

圖1 ECA通道注意力機制Fig.1 ECA channel attention mechanism

3 網絡模型

本文提出的XLnet與DMGAN融合模型的結構如圖2所示,黃色區域為改進部分。首先應用AttnGAN[16]模型中的深度注意多模態相似度網絡(DAMSM)計算細粒度圖像到文本的匹配損失。在訓練DAMSM網絡時,將其原有的編碼器替換為XLnet文本編碼器,圖像編碼器保持不變,計算DAMSM損失并加入到DMGAN模型的生成器損失中,后續使用生成對抗網絡生成像素為64×64的初始圖像,最后利用動態內存將圖像進行兩次細化,分別生成像素為128×128和256×256的圖像。

圖2 XLnet-DMGAN融合網絡結構Fig.2 Converged network architecture of XLnet-DMGAN

3.1 深度注意多模態相似度網絡

文本字詞特征用XLnet文本編碼器提取,圖像特征用inception-v3[19]圖像編碼器提取,將提取到的特征轉換到公共空間進行訓練,表達式如式(1)所示:

其中:f是局部特征提取矩陣,其維度為768×289,768是局部特征向量的維數,289是圖像中子區域個數是全局特征提取矩陣,其維度為2 048;W是感知層,將圖像特征和文本特征轉換到共同語義空間;v和vˉ分別是圖像局部和全局特征向量轉化到公共區域的向量。

字詞特征維度為768×T,768是單詞特征向量維數,T是文本單詞個數。首先計算句子中每個單詞和圖像中的子區域的相似矩陣,其表達式為:

式中:s∈RT×289和si,j是指句子的第i個單詞和圖像的第j個子區域點積相似度,v為圖像局部特征轉換到語義空間的向量,e是字詞特征向量。

接著建立一個注意力模型計算圖像相關區域和句子第i個單詞的動態表示ci,其具體表達式如式(3)所示:

其中:vj和αj分別是第j個圖像子區域特征和針對第j個圖像子區域的注意力權重;ci為所有區域視覺向量的加權總和,也就是句子第i個單詞相關的圖像子區域的動態特征;γ1為參數。

然后通過ci和字詞特征e的余弦相似確定第i個單詞和圖像之間的相關性,表達式如式(4)所示

一個圖像(Q)和其對應的一個文本描述(D)之間的注意力驅動的圖像-文本匹配得分定義為:

式中,γ2為參數,決定最相關的單詞到區域上下文對的重要性放大多少。

因此,對于每一個batch的圖像Qi和文本Di組成的其相匹配的后驗概率為:

式中,γ3為實驗確定的平滑因子。在所有句子中,只有Di匹配圖像Qi,其余的M-1字詞都視為不匹配的描述。

字詞級別的文本匹配圖像損失函數采用負對數后驗概率,其表達式如式(7)所示:

式中,w為word,即單詞。對應可得P(Di|Qi)的損失函數如式(8)所示:

將式(5)重新定義為:

3.2 初始圖像生成階段

在初始圖像生成階段,由給定的文本通過文本編碼器生成語句特征向量和字詞特征向量。本文的文本編碼器使用的是新提出的XLnet文本編碼器。語句特征向量s是包含整個文本語句特征的向量,該向量用于初始圖像的生成。字詞特征是包含單詞個數的字詞特征向量,該向量用于提升初始生成圖像的分辨率。文本編碼器編碼得到的語句特征向量s需要先進行條件增強,首先從語句特征向量s的高斯分布中的到它的平均協方差矩陣μ(s)和對角協方差矩陣σ(s),然后計算特征向量c0.(c0=μ(s)⊕σ(s)?ε,ε~N(0,1)),再將c0和一個正態分布中隨機取樣的噪聲Z拼接得到進行一次全連接操作和4次上采樣操作得到初始特征圖像R0,最后通過ECA通道注意力卷積模塊和一次3×3卷積塊生成初始圖像。

原始的RNN編碼器只能從左向右或者從右向左編碼,這使得從embedding層中提取文本語義的過程會忽略一些單詞和曲解語句信息,導致圖像屬性的損失。針對這些問題,提出一種基于XLnet的編碼器的文本編碼器,實現對文本信息的深度挖掘。融合XLnet編碼后,整體文本編碼結構如圖3所示。整個圖像編碼器由5部分組成,分別是輸入、文本預處理、XLnet預訓練編碼器和輸出。具體實現細節如下:

圖3 文本編碼器流程框圖Fig.3 Flow diagram of text encoder

(1)導入pytorch_transformers庫中的XLNet-Model類和XLNetTokenizer類。XLNetModel是PyTorch提供的XLNet模型網絡結構,XLNet-Tokenizer是XLNet模型的分詞工具,存儲模型的詞匯表并提供用于編碼/解碼需要的token embedding。

(2)數據預處理階段:對讀取的文本進行處理,需要用到XLNetTokenizer類中基于SentencePiece構造的tokenizer方法,數據預處理方法見算法1。例如文本text=[‘這個鳥有白色翅膀和白色腹部’],用tokenizer對句子分詞后得到tokens=[‘這個’,‘鳥’,‘有’,‘白色’,‘翅膀’,‘和’,‘白色’,‘腹部’]。tokenizer將文本劃分成8個詞組成的序列,接著對tokens計數,返回一個字典類型的數據,鍵是元素,值是元素出現的次數,即{‘這個’:1,‘鳥’:1,‘有’:1,‘白色’:2,‘翅膀’:1,‘和’:1,‘腹部’:1}。接著對照加載的token embedding詞表找到詞組索引。token embedding是包含實例化標記程序所需的詞匯表,比如“這個”索引值為3 683,依次類推。

(3)構建XLNetModel階段:對于階段(2)中獲取到的詞組索引token_index,構建一個XLNet模型計算詞組的字詞向量表達。XLNetModel是PyTorch提供的XLNet模型網絡結構,構建XLNet模型訓練字詞向量方法如算法2所示。

對于構造的XLNet模型,初始化其Embedding矩陣shape=(32 000,768),由32 000個維度為768的特征向量組成。對于由階段(2)得到的詞組索引,對照初始化的詞表,根據索引值查找到其對應的特征向量,最終對其加權平均得到XLNet模型訓練的字詞向量。

對于文本text,經過XLNet模型對每個詞組的上下文內容學習,得到一個Word Embedding矩陣:shape=(8,768),簡單理解為將每個詞語映射到一個768維的矩陣中。例如“翅膀”經過XLNet模型對其上下文的學習得到的字詞特征向量為[-9.515 4e-02,-7.279 3e-02,-2.319 0e-01,…,-3.872 8e-05,-9.983 7e-02,-1.942 1e-04],通過學習字詞特征向量及字詞的位置,生成相應的語句特征Sentence Embedding,矩陣shape=(1,768)。例如“這個鳥有白色翅膀和白色腹部”經過XLNet模型對其上下文的學習得到語句特征向量為[-8.946 8e-01,-3.181 3e-01,-7.396 6e-01,…,-2.104 8e-02,-6.997 3e-01,-7.210 0e-01],[-9.401 6e-04,3.475 4e-02,1.271 4e-01,…,-4.303 3e-03,6.347 8e-01,-7.069 6e-01],[-2.299 2e-02,2.675 0e-04,-6.227 4e-03,…,-8.204 7e-04,2.669 5e-01,2.899 6e-20],…,[5.412 2e-01,-1.777 2e-11,9.400 5e-01,…,9.603 8e-01,3.736 8e-01,6.806 8e-06],[3.825 3e-04,5.585 0e-05,4.050 8e-01,…,7.618 3e-01,5.420 4e-01,8.125 2e-03],[-7.615 9e-01,-8.309 0e-09,5.942 4e-07,…,5.821 6e-01,4.719 8e-01,-5.940 6e-01]]。

3.3 圖像細化階段

在圖像細化階段,將更多細粒度的信息添加到模糊初始圖像中,生成較上一階段逼真的圖像xi:xi=Gi(Ri-1,W),其中Ri-1為上一階段的圖像特征。細化階段主要由內存寫入、鍵尋址、V值讀取、響應和ECA通道注意力5個部分組成。首先內存寫入功能將文本內容存儲到鍵值結構化存儲器內,以便檢索。通過鍵尋址和V讀取操作從內存模塊中讀取特征,細化初始生成圖像質量。再采用V響應操作控制圖像特征的融合;最后將融合后的特征圖像通過ECA通道注意力加權融合。細化階段可以重復多次(本文重復兩次)以檢索更相關的信息,并生成具有更細粒度細節的高分辨率圖像。

3.3.1 動態內存

從給定的輸入詞W、圖像x和圖像特征Ri進行計算:

其中:T為單詞數,Nw為單詞特征的維數,N為圖像像素數,圖像像素特征為Nr維向量。

細化階段包含內存寫入、鍵尋址、V值讀取和響應。內存寫入主要是指對先驗知識進行編碼。內存寫入將文本特征經過一次1×1卷積運算嵌入到n維的記憶特征空間中,具體表達公式如式(13)所示:

式中,M(· )表示1×1卷積。鍵尋址主要是使用鍵存儲器檢索相關的存儲器,計算每個內存插槽的權重作為內存插槽mi和圖像特征ri:

式中:αi,j為第i個記憶體與第j個圖像特征之間的相似概率,φK(· )為將記憶內存特征映射到維數Nr的一個內存訪問進程,φK(· )表示1×1卷積。V值讀取是指輸出存儲器表示被定義為根據相似概率對值存儲器進行加權求和,具體表達式如式(15)所示:

式中,φV(· )為將內存特征映射到維度Nr的值內存訪問過程。φV(· )實現為1×1卷積。在接收到輸出存儲器后,將當前圖像和輸出圖像相結合以提供一個新的圖像特征。一種簡單的方法就是單純地將圖像特征和輸出表示連接起來,得到全新的圖像特征,其表達式如式(16)所示:

式中,[· ,· ]表示拼接操作。然后,利用一個上采樣塊和幾個殘留塊,得到一個較高分辨率的圖像特征。上采樣塊由一個上采樣層和一個3×3卷積組成。最后,利用3×3卷積從新的圖像特征中得到細化的圖像x。

3.3.2 內存寫入門

內存寫入門允許DMGAN模型選擇相關的單詞來細化初始圖像,它將最后階段的圖像特征與單詞特征相結合,計算出單詞的重要性,其公式如式(17)所示:

式中:σ是sigmoid函數,A是一個1×Nw矩陣,B是一個1×Nr矩陣。結合圖像和文本特征編寫內存插槽mi∈RNm。Mw(· )和Mr(· )表示1×1卷積運算。Mw(· )和Mr(· )將圖像特征和字詞特征拼接起來進行輸入。

3.3.3 響應門

利用自適應門控機制動態控制信息流,更新圖像特征,其表達式如式(18)所示:

3.3.4 生成器

生成器的目標函數可以表示為:

式中:λ1和λ2分別為條件增強損失和DAMSM損失的權重,G0表示初始生成過程的生成器,Gi表示圖像細化階段第i次迭代的生成器。

對抗損失Gi的定義如式(20)所示:

式中第一項是無條件損失,使生成的偽圖像盡可能真實;第二項是條件損失,使生成的偽圖像匹配輸入的句子。

每個鑒別器Di的對抗損失定義為:

式中上半部分為無條件損失,用于將生成的偽圖像與真實圖像區分開來;下半部分為條件損失,決定生成的偽圖像與輸入句子是否相符。

條件增強(CA)損失描述了訓練數據的標準高斯分布和高斯分布之間的KL散度:

式中,μ(s)和∑(s)為句子特征的均值和對角協方差矩陣。μ(s)和∑(s)通過全連接層計算。

DAMSM損失用來衡量圖像和文本描述之間的匹配程度,其相關理論及公式在2.1節已詳細介紹,不再贅述。

4 實驗與結果分析

4.1 實驗環境及數據集

本文所做實驗的軟硬件環境如下:系統為Ubuntu 20.04,CPU為Intel(R) Xeon(R) Platinum 8350C,GPU為 GeForce RTX 3090(24G),Cuda版本為11.3,Python版本為3.9,所用的深度學習框架為Pytorch。

為了驗證DMGAN和XLnet融合的網絡圖像生成能力,選用CUB數據集進行實驗。CUB[20]數據集中鳥類包含了200個類別,每個類別平均約有60張鳥的圖片,共11 788張。使用其中的8 855張圖片進行訓練,余下的2 933張圖片用于測試。每張圖片均有10個描述語句。

4.2 實驗設置

本文的文本編碼器選用的是xlnet-base-cased模型,設置其維度為768×300,與DMGAN模型的維度一致。

模型的訓練分為兩步:先進行DAMSM語義一致性網絡的訓練,訓練生成xlnet-rnn-encoder和cnn-encoder兩個編碼器權重;然后將訓練好的兩個權重導入到DMGAN模型中,進行DMGAN生成對抗網絡的訓練。

具體參數選擇配置如下:優化器方面選擇的是Adam優化器,學習率α=0.000 2,輪數epochs=800,batchsize=20,參數λ=5。

4.3 評價指標

本文采用IS[21](inception score)和FID[22](fréchet inception distance)兩種評價指標對實驗結果進行量化評價。

IS通過預訓練的inception_v3網絡表示條件類分布和邊緣類分布之間的KL散度,較高的IS值表示生成的圖像多樣性強,圖像品質好,而且能明顯鑒別出圖像所屬的類別,其具體的計算公式如式(23)所示:

式中:x為生成樣本的圖像,y為算法預測出的標簽;DKL為計算(P(y|x)和P(y)的KL散度。

FID計算出生成圖像和真實圖像之間的Fréchet距離。FID越小,代表生成圖片越接近真實圖片。其具體的計算公式如式(24)所示:

式中:μr、μg分別為真實樣本特征均值和生成樣本特征均值,Tr建立了對真實數據和生成樣本數據之間的協方差矩陣的求跡。

4.4 結果分析

4.4.1 指標對比

實驗中,前期DAMSM語義一致性預訓練損失變化曲線如圖4所示。本文可視化了預訓練過程中式(11)的DAMSM loss。得益于XLnet文本編碼器,預訓練的DAMSM語義一致性訓練在進行到50個epoch時已經收斂,而原始的網絡需要到150個epoch才開始收斂。收斂后,融合XLnet文本編碼器的網絡損失波動幅度小于原始網絡的損失,說明該網絡收斂速度快,并且穩定性也優于原始網絡。

圖4 DAMSM語義一致性訓練損失變化圖Fig.4 Loss change graph of DAMSM semantic consistency training

生成網絡在CUB數據集上訓練了800個epoch,生成約3 000張測試集圖片,量化評價指標對比見表1。如表1所示,融合后網絡模型得到的IS值達到5.22±0.18,較最初DMGAN模型的IS值4.75±0.07提升了0.47,與其他具有代表性的模型相比,效果也最好。本文所提模型的FID僅為13.31,較最初DMGAN模型的FID值16.09下降了2.78,說明融合后模型生成的圖像在視覺上更加貼近真實圖片,細節處處理得更好。

表1 各項評價指標對比Tab.1 Comparison of evaluation indicators

IS值的變化曲線如圖5所示??梢钥闯鲈?00輪之后,本文所提方法明顯優于原始DMGAN模型。FID值的變化曲線如圖6所示,可以看出在520輪之后,本文所提方法明顯優于原始DMGAN模型。

圖5 IS值的變化曲線Fig.5 Variation curves of IS value

圖6 FID值的變化曲線Fig.6 Variation curves of FID value

由表1、圖5、圖6可以看出,本文利用XLnet編碼器進行文本編碼,深度理解文本信息,使得初始階段生成的圖像特征融合了更多的語義信息,后續模型生成了高保真、高質量且語義一致性的圖像。

4.4.2 生成圖像對比

將本文與幾種具有代表性的文本生成圖像的實驗效果進行對比,參與對比的網絡有Stack-GAN、AttnGAN、DMGAN,均使用公開模型且在同一環境下訓練所得結果。訓練測試結果如圖7所示。在生成的圖像中,從第一、二列中的測試結果可以看出,原始DMGAN模型生成的鳥存在整體、尾部、腳爪的失真;從第三、四列中測試結果可以看出,原始DMGAN模型生成的鳥存在空間結構不合理的問題,第三列中的翅膀和第四列中的脖頸均不符合正常鳥的結構。上述問題已用白色橢圓框標出。融合XLnet的編碼器后,圖像的語義一致性和整體形態都有明顯提升。ECA通道注意力專注于生成圖像的空間結構和具體細節之處,使得生成的圖像更加符合真實圖像,圖像的美感也得到了提升,定性地表明了本文所融合模型優于原始模型。

圖7 生成圖像對比Fig.7 Comparison of generated images

為了詳細分析文本生成圖像的過程,例如文本text=[‘這種鳥是白色和黃色的,有一個非常短的喙?!?,從開始生成的噪聲圖像到第一階段結束時的64×64圖像進行逐步展示,如圖8所示。圖像細化工作如圖9所示。為了驗證生成圖像的多樣性,圖10使用相同文本描述和多個噪聲向量生成多個現狀和背景不同的圖像。

圖8 初始圖像生成細節。(a)初始噪聲圖像;(b)經過全連接和4個上采樣之后的圖像;(c)經過ECA通道注意力和3×3卷積的初始圖像。Fig.8 Generated details of initial image. (a) Initial noise image; (b) Image after full connection and four upsampling; (c) Initial image after ECA channel attention and 3×3 convolution.

圖9 細化圖像細節。(a)64×64圖像;(b)128×128圖像;(c)256×256圖像;(d)注意力權重。Fig.9 Refined details of the image.(a) 64×64 image;(b) 128×128 image; (c) 256×256 image; (d)Attention weights.

圖10 相同文本生成圖像展示Fig.10 Generated images from the same text

4.5 消融實驗

為了驗證本文所提出的融合模型在文本生成圖像的出色表現,本文進行了XLnet編碼器模塊和高效通道注意力的消融實驗,結果如表2所示,其中,ECA為圖像生成過程中添加的通道注意力模塊。從表2可以看出,兩個模塊的結合得到了最優的實驗結果,驗證了兩個模塊的有效性。

表2 消融實驗結果Tab.2 Results of ablation experiments

5 結論

針對文本生成圖像任務中語義不匹配、圖像細節損失、圖像空間結構不合理等問題,本文提出了一種改進的DMGAN模型。首先引入NLP領域中的XLnet模型對文本進行編碼,捕獲上下文內容,實現了對文本信息的深度挖掘;其次在DMGAN模型的初始圖像生成和圖像細化兩個階段均加入高效通道注意力機制,提高了模型的泛化能力,模型的收斂速度和穩定性也得到了大幅提升。最后在公開數據集CUB上進行了實驗驗證,對比原始DMGAN模型,本文所提模型的IS指標提升了0.47,FID指標降低了2.78。結果表明,改進后的DMGAN模型提高了生成圖像的質量、增強了生成圖像的多樣性,在文本生成圖像領域具有一定的實際應用價值,如在行人重識別方面的應用[25]。

在未來的實驗中,可以選擇Transformer中的其他預訓練模型,如預訓練模型超大且擁有1 750億預訓練參數的GPT-3、輕量化的預訓練模型ALBERT等;選擇更好的生成對抗網絡,如DFGAN,ManiGAN等做相應的融合實驗。上述只是針對文本編碼器的融合,也可以做圖像編碼器的融合,如將VIT(Vision Transformer)的預訓練模型融合到生成對抗網絡中的圖像編碼器中,驗證VIT在文本生成圖像這個下游任務中是否具有良好的表現,也可以同時將自然語言處理處理中的Transformer預訓練模型和計算機視覺中的Transformer預訓練模型一起融合到生成對抗網絡中。

猜你喜歡
特征向量編碼器單詞
二年制職教本科線性代數課程的幾何化教學設計——以特征值和特征向量為例
克羅內克積的特征向量
單詞連一連
基于FPGA的同步機軸角編碼器
看圖填單詞
一類特殊矩陣特征向量的求法
EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應用
看完這些單詞的翻譯,整個人都不好了
基于PRBS檢測的8B/IOB編碼器設計
JESD204B接口協議中的8B10B編碼器設計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合