?

基于潛在特征增強網絡的視頻描述生成方法

2024-02-29 04:40李偉健胡慧君
計算機工程 2024年2期
關鍵詞:集上解碼對象

李偉健,胡慧君

(武漢科技大學計算機科學與技術學院,湖北 武漢 430065)

0 引言

視頻描述生成旨在根據視頻內容自動生成描述性的自然語言句子,視頻中蘊含著豐富的信息[1],以往的研究致力于理解靜態的視覺信息,但是如何對視頻中豐富的時空信息進行建模仍是一項具有挑戰性的任務[2]。

視頻中顯著對象的檢測是目前計算機視覺前沿領域必不可少的關鍵任務,該任務通常被稱為目標檢測任務。例如,文獻[3]提出的OA-BTG 通過構建雙向序列圖來提取視頻中的重要目標,然后整合整個視頻中的全局特征生成字幕。文獻[4]提出的STG-KD 采用圖卷積網絡(GCN)對檢測到的對象進行關系推理,以增強對象級的關系表示。文獻[5]提出的DETR 首次采用Transformer 方法進行視頻描述生成中的對象檢測,計算輸出區域和真實區域的集合相似度,將對象檢測視為1 個直接的集合預測問題。因此,處理不同視頻幀中對象之間的關系是視頻描述生成任務的關鍵。

現有方法往往是根據編碼器-解碼器的結構設計來生成視頻描述。通過不同的特征提取器,如IncepResNetV2[6]、I3D[7]和Faster R-CNN[8],不同編碼器可以從不同角度捕捉視頻信息。顯然,同時使用不同的特征進行連接可能會取得更優的性能,但是這種方法往往會忽略不同特征之間的上下文語義信息,而這些信息在具有時空信息的視頻中起著重要作用。XU 等[9]和WANG 等[10]通過對視頻幀進行局部特征融合來學習判別性的特征,從而提高視頻描述生成質量。例如,文獻[11]提出的SAAT 通過融合對象和時間特征來生成相應的動詞。但是,只融合局部特征難以獲得全局的時空語義視頻信息。例如文獻[12]提出的POS+CG 設計1 個交叉門控模塊來融合外觀和運動特征,并進行綜合闡述,然而,僅通過預測的全局POS 來表示生成的每個單詞,而忽略了微妙的細節信息,從而難以捕獲準確的對象。

為了解決上述問題,本文設計新的潛在特征增強網絡(LFAN)模型。該模型融合不同的特征來生成具有更高維度的潛在特征,并且通過構建連接視頻特征的動態圖來獲取時空信息,并利用GNN 和長短時記憶(LSTM)網絡推理對象間的時空關系,進一步豐富視頻內容的特征表示,并結合LSTM 和門控循環單元(GRU)設計一種新的解碼方法來處理上下文信息和全局信息,從而生成準確、流暢的視頻描述。

1 相關工作

1.1 視頻描述生成

視頻描述生成作為計算機視覺和自然語言處理的交叉領域,早期大多數方法都是基于特定的模板[13-15],這些模板需要大量人工設計的語言規則,并且處理有限類別的對象、動作等,難以生成準確的語句描述。

隨著深度神經網絡的興起,VENUGOPALAN等[16]提出一種編碼器-解碼器框架來克服這些限制。當前,基于編解碼框架的視頻描述生成方法成為主流。YAO 等[17]提出一種動態總結視覺特征的時間注意力機制。CHEN 等[18]提出從視頻中去除冗余幀,從而解碼重要的視覺信息以生成視頻描述。文獻[19]提出的M3 通過建立記憶網絡來模擬長期的視覺文本依賴,以生成高質量的描述。文獻[20]提出的MARN 設計一種記憶結構來尋找候選詞匯和包含它所有視頻特征的關系。TAN 等[21]提出一種新的時空視覺推理模塊RMN,實現顯式的、可解釋的視頻字幕處理。BAI 等[22]采用生成對抗網絡(GAN)來保證生成描述的準確性。RYU 等[23]提出一種語義分組網絡(SGN),通過語義組預測下1 個生成的單詞。Open-Book[24]從語料庫中檢索語句,作為生成描述性語句的指南。CHEN 等[25]提出R-ConvED,從已注釋的視頻句子對中檢索相關的視覺內容和句法結構,并利用這些上下文知識促進描述性語句的生成質量。

最新的研究挑戰則是嘗試構建大規模的端到端訓練視頻描述生成網絡,如LIN 等[26]在視頻描述生成領域中使用SwinBERT 進行端到端訓練,以生成視頻描述。但是這類網絡模型通常使用Transformer進行編解碼,訓練參數量龐大,并且需要大量的計算資源。

1.2 潛在特征

不同的特征信息在生成視頻描述中起著重要作用。文獻[27]提出的GRU-EVE 使用對象標簽增強視覺特征的語義信息。文獻[12]提出的POS+CG 構建一種新穎的門控融合網絡,對視頻的外觀和運動特征進行編碼和融合。文獻[4]提出的STG-KD[通過GCN 構建對象關系圖,利用對象關系圖推理視頻對象之間的時空關系以獲得潛在特征。文獻[28]提出的ORG-TRL 使用GCN 實現關系推理從而獲取視頻中的潛在特征,豐富細節對象的表示。文獻[11]提出的SAAT 設計1 個語法感知模型來增強動詞的生成,使動作和目標之間的相關性更強。圖1 所示為LFAN 生成描述的直觀示例。本文使用基線模型Baseline 作為對比,其中僅使用傳統的編碼器-解碼器框架,沒有使用圖神經網絡和改進的解碼方式。從圖1 可以看出,基線模型缺乏時空語義信息,無法對視頻上下文進行全面探索,從而產生較差的描述。SAAT 生成目標對象和相應的動詞,但沒有捕獲完整的視頻信息,從而生成不完整的描述語句。相反,本文模型 通過捕 捉突出 的對象“man”“chicken”和“plastic”,學習它們之間的對應關系從而生成準確的動詞“put”,并完整描繪出視頻內容。

圖1 LFAN 生成描述的直觀示例Fig.1 An intuitive examples of LFAN generation descriptions

2 潛在特征增強網絡

LFAN 模型框架如圖2 所示。LFAN 模型由編碼層、潛在特征層和解碼層組成。首先,利用空間GNN增強目標特征以獲得更精確的目標區域;然后,利用語義GNN 和LSTM 融合外觀特征、運動特征和對象特征,得到具有語義信息的潛在特征;最后,利用可以處理全局信息的解碼器生成視頻描述。

圖2 LFAN 模型框架Fig.2 Framework of LFAN model

2.1 編碼層

在編碼階段,本文使用3 種預訓練模型提取視頻特征。對于給定的視頻幀N,本文使用2D-CNNs和3D-CNNs 分別提取外觀特征和運動特征,然后使用R-CNNs 提取區域目標特征區域目標特征包含空間上的額外維度。

2.2 潛在特征層

LFAN 模型使用GNN 融合不同的特征,得到潛在特征,利用GNN 和LSTM 實現潛在特征的增強,并得到更高維度的增強潛在特征,高維度的潛在特征蘊含著豐富的語義信息以生成更準確的視頻描述。

對于先前生成的Va,Vm和Vo,本文首先利用動態顯著區域圖神經網絡DyReg-GNN[29]對區域目標特征Vo進行增強,DyReg-GNN 可以通過學習發現與當前場景和目標相關的顯著區域來改善視頻的關系處理過程,增強后的蘊含時空信息,如式(1)所示:

其中:Ddyreg() 表示DyReg-GNN 中的圖神經網絡操作。

然后將增強后目標特征的中間2 維降為1 維,再將特征Vi=Va,Vm分別和增強后的區域目標特征由Softmax()函數計算關系矩陣權值:

其中:Wadj∈Rd表示可學習的參數;/代表矩陣點除。

為了讓特征同時具有幀級的時間信息和對象級的空間信息,本文將特征Vi和得到的關系矩陣相乘,相乘后的結果和區域目標特征拼接得到潛在特征:

使用1 個雙向LSTM 對潛在特征進行編碼,將前一時刻的隱藏狀態ht-1作為輸入:

其中:表示增強的潛在特征;ht表示第t個時刻的隱藏狀態;ct表示第t個時刻的細胞狀態。由于ht具有豐富的歷史信息,因此它對于增強潛在特征具有指導作用。

對增強的潛在特征使用Transformer 中的位置編碼,保存特征之間的相對位置用于指導生成更流暢的描述語句,然后通過圖神經網絡將其融合為潛在特征并參與訓練。外觀和運動潛在特征如式(7)和式(8)所示:

其中:LPi表示外觀和運動潛在特征;PPE()表示Transformer 中的位置編碼函數;K()表示kernel 函數,里面是圖神經網絡模塊,包含卷積和批量規范化操作以及GELU[30]激活函數;×表示矩陣乘法;表示最終的增強外觀和運動潛在特征;Sselfatt()表示自注意力函數,后面還有1 層LayerNorm 函數。本文考慮到雖然ReLU[31]函數能夠解決梯度消失,但是依然存在一些不可避免的問題,如無法避免梯度爆炸,神經網絡無法調整學習率的值。因此,本文采用自然語言處理(NLP)領域最近表現較優的GELU 作為激活函數,GELU 在BERT 和Transformer 中也得到了很好的應用。

至此,LFAN 模型完成幀級的外觀特征和運動特征同對象級目標特征的融合,從而生成具有時空動態信息的高級潛在特征。

2.3 解碼層

本文參考ORG-TRL[6]并設計一種同時使用LSTM 和GRU 的解碼方法。LFAN 模型通過注意力LSTM 和GRU 解碼潛在特征層生成,從而逐 漸生成最終的視頻描述。

首先LFAN 模型對生成的潛在外觀特征和潛在運動特征進行均值操作,然后用Cat 操作將它們拼接作為模型的全局視頻特征:

其中:表示全局視頻特征;Cat()表示Cat 拼接操作。

對于每個時間步長t,LSTM 根據歷史隱藏狀態、歷史細胞狀態與均值全局特征以及之前生成的單詞wt-1進行連接,歷史隱藏狀態和細胞狀態的表達式如式(10)所示:

對于局部對象特征,LFAN 模型使用DyReg-GNN中的方法,首先將不同幀中的對象對齊并合并在一起,然后使用空間注意模塊選擇應該關注哪些對象,并提取局部上下文特征。局部上下文特征的表達式如下:

其中:AATT()表示DyReg-GNN 中空間注意模塊。

最后,GRU 總結全局和局部上下文特征以生成當前隱藏狀態,這樣本文生成描述時既有全局相關性也包含細粒度的上下文信息。在將單詞概率Pt解碼后是單層感知機和解碼步驟t時刻的Softmax()運算。隱藏狀態和單詞概率的計算式如下:

其中:Pt表示詞匯量的D維向量;Wz表示權值矩陣;bz表示可學習的參數。

3 實驗結果與分析

為合理評估該網絡模型的有效性和先進性,本文在2 個廣泛使用的基準數據集MSVD 和MSR-VTT 上進行實驗,并通過4 個廣泛使用的指標BLUE@4、METEOR、ROUGE-L 和CIDEr 進行評估,將該方法與最先進的方法進行比較,并進行消融實驗。

3.1 數據集

MSVD 由YouTube 收集的1 970 個網絡視頻組成,平均視頻長度為10.2 s,每個視頻大約有41 個英文句子,每個描述平均長度約有7 個單詞。本文根據之前的工作[15]將數據集分為1 200 個訓練視頻、100 個驗證視頻和670 個測試視頻。

MSR-VTT 數據集是開放領域視頻字幕生成的大規模數據集,共包含10 000 個視頻,平均視頻長度為14.8 s,每個視頻有20 個人為標注的英文描述,每個描述的平均長度約為9 個單詞。本文采用標準分割將數據集分為6 513 個訓練視頻、497 個驗證視頻和2 990 個測試視頻。

3.2 實驗設置

本文在特征提取上使用預訓練好的Inception ResNetV2(IRV2)、I3D 和Faster R-CNN 分別提取外觀特征、動作特征和目標特征,每個視頻采用26 幀的均勻采樣,Faster R-CNN 從固定的26 幀中提取36 個proposal。對于語料庫的預處理,本文將生成的所有描述轉換為小寫并去掉標點符號,最大詞匯量設置為26 個單詞,對超過26 個單詞的描述進行零填充。本文將預訓練GloVe.6B.300d 詞表引入到解碼器參與詞向量訓練,詞向量維度為300。

本文用標準的交叉熵損失函數計算模型生成的描述和Ground Truth 間的差異,采用Adam 優化器優化LFAN 模型,初始學習率設為1×10-4,動態調整學習率使其每5 輪削減50%。訓練和測試批量大小分別設為256 和128,最大訓練迭代輪次設為60 次。在MSVD 和MSR-VTT 數據集上,所有LSTM 模塊隱藏狀態大小分別設為1 024 和1 536,每個圖卷積操作的特征大小為1 024。在測試階段本文分別使用大小為4 和5 的波束搜索來生成描述。

3.3 實驗結果定量分析

為驗證LFAN 模型的有效性,本文選擇使用CNN 作為編碼器和LSTM 作為解碼器,在MSVD 和MSR-VTT 2 個數據集上與最先進的方法進行比較。

在MSVD 和MSR-VTT 數據集上不同模型的實驗結果如表1 所示,其中,B@4、M、R、C 分別表示BLUE@4、METEOR、ROUGE-L 和CIDEr,加粗表示最優數據。從表1 可以看出,LFAN 具有較強的競爭優勢,在MSVD 數據集上,反映描述準確性的BLEU@4 分數為57,反映描述豐富性的CIDEr 分數達到了100.1,在MSR-VTT 數據集 上,BLEU@4 分數為43.8,CIDEr 分數為50.2,在多個指標上都優于主流視頻描述生成方法,證明LFAN 模型的有效性。

表1 在MSVD 和MSR-VTT 數據集上不同模型的實驗結果Table 1 Experimental results among different models on MSVD and MSR-VTT datasets

在MSR-VTT 數據集上,與不使用對象特征的RecNet、PickNet、MARN、SGN 和Open-Book 相比,LFAN 僅略遜于Open-Book,其原因為Open-Book 在生成關鍵詞時從文本語料庫中檢索多個與視頻內容相關的句子,生成的關鍵詞與參考語句在生成關鍵詞時,會從文本語料庫中檢索多個與視頻內容相關的句子,因此生成的關鍵詞與參考語句的相似度更高。這種方法在METEOR 和CIDEr 評價指標中會獲得更高的得分。而在MSVD 數據集上,LFAN 在所有評價指標上都取得比其他方法更優的性能,表明對象特征在視頻描述生成中發揮了重要作用,并且學到準確的對象特征。

此外,LFAN 與使用對象特征的OA-BTG、GRUEVE、RMN、STG-KD、SAAT 和ORG-TRL 進行比較。在MSR-VTT 數據集上,當ORG-TRL 引入TRL 外部語言模塊來指導模型生成描述語句時,ORG-TRL 的CIDEr 得分增加為50.9,當ORG-TRL 去掉TRL 外部語言模塊后,在CIDEr 上的表現不如本文模型,得分為50.1。本文提出的LFAN 在BLUE@4 和ROUGE-L中有更好的表現,表明LFAN 生成的視頻描述準確度和召回率更高。

3.4 消融實驗

本文主要對潛在特征模塊和解碼模塊進行改進。為了說明本文的改進措施能使模型學到更有效的信息以生成視頻描述,本文在潛在特征模塊上設計3 個消融實驗,分別是僅使用外觀特征、運動特征和對象特征來生成視頻描述的基線模型。

表2 和表3 所示為使用不同神經網絡和不同解碼方法的消融實驗結果。LFAN-GNN 表示使用圖神經網絡融合不同特征,LFAN-DG 表示使用DyReg-GNN 加強目 標特征,LFAN-LSTM 和LFAN-GRU 分別是僅使用LSTM 和GRU 作為解碼器。從表2 可以看出,無論是使用圖神經網絡融合不同特征還是加入DyReg-GNN 后,模型的各項指標都有所提升。相比LFAN-GNN,LFAN-DG 在2 個數據 集上的BLUE@4 分別提升了1.9 和0.6,說明本文的改進方法使模型提取到更準確的對象信息。本文在MSVD數據集上的CIDEr 分數比基線模型提高9.8,在MSR-VTT 數據集上比基線模型提高了3.1 的分數,進一步證明LFAN 的有效性。

表3 使用不同解碼方法的消融實驗結果 Table 3 Results of ablation experiments using different decoding methods

從表3 可以看出,本文設計同時使用LSTM 和GRU 的LFAN 顯然比單獨使用其中1 個解碼方法的性能更好,新的解碼方法與LFAN-LSTM 相比評估效率也得到了改善,這充分證明了本文改進方法的有效性。

3.5 實驗結果定性分析

圖3 所示為LFAN 生成的一些描述實例與參考描述(GT)的對比。圖3 中第1 行參考視頻描述:GT1“a woman is applying something on her eyelids”;GT2“a girl is applying eye makeup”;GT3“a girl is applying makeup to her eyelid”;LFAN“a woman is applying makeup on her eye”。第2 行參考視頻描述:GT1“the man is putting meat in the bag”;GT2“a man is adding chicken to a plastic cover”;GT3“a man puts chicken breasts into a bag”;LFAN“a man is putting chicken into a plastic”。第3 行參考視頻描述:GT1“a man is dicing food”;GT2“a man is slicing garlic”;GT3“a person is slicing garlic”;LFAN“a man is chopping garlic”。第4行參考視頻描述:GT1“a woman is cooking”;GT2“a woman showing how to cut garlic cloves”;GT3“a woman is chopping garlic”;LFAN“a person is preparing some food in the kitchen”。LFAN 可以精準識別出“woman”在“applying makeup”,而不是“draw something”。在第2 行的示例中,LFAN 成功地識別出主要對象信息“chicken”和“plastic”以及人物的動作“putting”,并且排除掉桌子上其他干擾對象信息,說明LFAN 不僅可以識別出主要對象,并且可以精準地描述對象動作。

圖3 LFAN 生成描述與參考描述實例分析Fig.3 Example analysis of LFAN generation description and reference description

4 結束語

視頻描述生成技術可以廣泛應用于各種媒體軟件,在視頻推薦、輔助視覺、人機交互等領域也具有廣泛應用前景[32]。本文提出一種基于潛在特征增強網絡的視頻描述生成模型LFAN。該模型著重于增強視頻特征的時空和語義信息,從而顯著提升生成的視頻描述質量。大量的定量、定性實驗和消融實驗結果都證明了LFAN 的有效性,LFAN 模型能夠精準地描述對象動作。由于在生成描述中一些視頻的描述難以被模型正確地生成,這種情況尤其發生在一些罕見或復雜的場景或物體上,因此后續將基于多模態融合和KL 散度對LFAN 進行分析研究。

猜你喜歡
集上解碼對象
神秘來電
《解碼萬噸站》
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
解碼eUCP2.0
NAD C368解碼/放大器一體機
Quad(國都)Vena解碼/放大器一體機
攻略對象的心思好難猜
復扇形指標集上的分布混沌
基于熵的快速掃描法的FNEA初始對象的生成方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合