?

基于深度多模態特征融合的短視頻分類

2021-04-13 01:59張麗娟崔天舒井佩光蘇育挺
北京航空航天大學學報 2021年3期
關鍵詞:模態音頻卷積

張麗娟,崔天舒,井佩光,蘇育挺

(天津大學 電氣自動化與信息工程學院,天津300072)

伴隨著智能手機和移動互聯網的迅速普及,短視頻作為一種新型的用戶生成內容,已經廣泛出現在各個社交平臺上,如抖音、Instagrm 和Vine。據抖音官方數據顯示,截至2020年1月5日,其日活躍用戶數已經突破4億。與傳統意義上的長視頻相比較,短視頻的時間長度通常被限制在2 min以內,這使得人們更容易獲取和分享這些視頻。除此之外,短視頻豐富的內容和多樣的表現形式為受眾提供了更優質的用戶體驗,是短視頻受歡迎的另一個原因。

已有的短視頻內容分析相關研究主要包括場景估計[1-3]、短視頻的流行度預測[4]及短視頻的推薦[5-6]等。例如,Zhang等[1]利用短視頻的文本、音頻和視覺模態特征解決多媒體場景分類的問題。Wei等[2]采用多模態特征融合的神經網絡(Neural Multimodal Cooperative Learning,NMCL)解決短視頻場景分類的問題。Nie等[3]致力于分析聲音模態對于短視頻場景類別預測的影響。Jing等[4]通過提出一種新穎的低秩多視角學習框架解決短視頻的流行度預測問題。Liu等[5]基于多模態特征融合的角度提出用戶-視頻聯合注意力網絡(User-Video Co-attention Network,UVCA)解決短視頻的推薦任務。Shang等[6]提出了面向短視頻大數據的推薦系統實現短視頻的推薦。本文致力于解決短視頻標簽分類問題。

近年來,隨著計算機視覺領域理論的飛速發展和圖像相關任務的理論日益成熟,人們越來越多地去解決視頻相關的問題而不是圖像。從傳統的人工處理獲取視頻特征到現在依賴于神經網絡提取視頻的特征,從原來小范圍的數據集到現在大范圍的數據集,視頻分類領域的研究已經取得了巨大的進步?,F有多模態特征融合的視頻分類算法主要通過提取不同模態的特征并進行直接融合以解決分類問題,然而,該視頻分類算法普遍針對的是傳統長視頻,不能直接應用于短視頻的分類,主要原因有:①與傳統意義上的長視頻相比,短視頻的時間長度通常只有1~2 min,所以需要在有限時間長度、有限內容的視頻中提取出對分類重要的特征。②短視頻的來源廣泛,表現形式多樣,所以短視頻相比較長視頻,具有更高的信息復雜度和冗余度。③現有的特征融合方法多利用多模態特征之間的公共部分,而忽略了不同模態特征之間的私有部分。綜上所述,現在的視頻分類算法并不適合解決具有“時短”特性的短視頻分類任務。

針對上述問題,本文提出了一種端到端的基于深度多模態特征融合的短視頻分類算法,搭建基于音頻模態的私有域、視覺模態的私有域及音視覺模態的公有域組合而成的域分離網絡,使用相似性損失函數探尋不同模態由公有域網絡提取到的特征相似性,使用差異性損失函數探尋同一模態私有域網絡和公有域網絡提取到的特征差異性,并使用分類損失指導視頻全局特征的分類。大量實驗結果表明,本文算法可以很好地解決短視頻的分類問題。

1 相關工作

本文主要從以下2個角度進行闡述:①深度特征學習,主要介紹利用深度卷積網絡實現對短視頻模態特征提取的相關工作;②多模態特征融合,簡單介紹傳統特征融合方式和現在普遍的特征融合方式。

1.1 深度特征學習

早期的視頻特征提取方法采用2D卷積網絡學習視頻的每一幀特征,該方法的靈感來源于圖像處理,然而其忽略了連續視頻幀之間的時間關聯性。為了保留時間相關性,現有很多方法通過聚合視頻的幀特征作為一個整體的視頻特征表示。Long等[7]提出注意力簇網絡(Attention Cluster Network,ACN),通過采用注意力單元將視頻的局部特征聚合成視頻的全局特征。Ma等[8]通過設置每一時刻的特征和前一個時刻特征按權重進行加權實現特征融合,從而實現視頻分類。近年來,為了充分利用視頻的時空特征,3D卷積網絡被提出用于學習視頻的連續幀特征而非單一的視頻幀特征,3D卷積網絡的輸入參數在保留了視頻批量大小、視頻通道、視頻幀寬度和視頻幀高度4個參數的基礎上,增添了視頻深度這一參數,用于記錄每一個視頻幀序列內的視頻幀數量。Tran等[9]提出C3D網絡,利用3D卷積提取連續幀序列的時空域特征,并在視頻分類準確率上取得了巨大的突破。近年來,以3D卷積為基礎推出的一系列視頻特征提取方法被廣泛地應用在視頻分類、跟蹤、分割等領域。例如,Carreira等[10]提出I3D網絡,通過在3D卷積網絡基礎上增加網絡寬度的方式提高網絡分類性能。Hara等[11]則將原本應用在2D卷積網絡的ResNet延伸擴展到3D卷積網絡,通過提出ResNet3D以解決視頻分類的相關問題。Feichtenhofer等[12]提出了SlowFast Network,整個網絡通過構建快慢2個3D卷積網絡去獲取視頻的全局特征。

然而,相比較傳統的2D卷積網絡,3D卷積網絡需要更大的參數量及存儲空間。為了解決該問題,Qiu等[13]通過構建P3D網絡,將3D卷積核用空間域的2D卷積及時間域1D卷積進行聯合表示。Tran等[14]運用R2+1D網絡將3D卷積網絡分解為獨立的空間和時間模塊。Xie等[15]在S3D-G網絡中采用(2D+1D)的卷積核代替I3D中的卷積核。

為了提高短視頻分類的性能,本文采用3D卷積網絡作為特征提取網絡,同時還分別應用到公有域網絡和私有域網絡中,實驗結果證明了該網絡架構的普適性和有效性。

1.2 多模態特征融合

區別于傳統的圖像分類等任務,視頻分類問題可利用的信息除了視覺信息外,還包括音頻信息、光流信息及軌跡信息等多種模態信息。

傳統的多模態特征融合策略大致分為前期融合和后期融合2種方式。前期融合通常將每個獨立的模態特征拼接成一個全局特征,并且將這個全局特征放入分類器中進行分類[16]。例如,D’Mello和Kory[16]通過直接拼接音頻模態特征和視覺模態特征獲得視頻的全局特征實現情感檢測。后期融合則采用一些特定的數學方法去融合來自不同模態特征的判斷得分,如平均、加權等操作。然而這些方法都忽視了不同模態特征在特征空間的關聯性,而且在融合方式上也缺乏更有效的指導。

為了克服傳統特征融合方法的缺陷,越來越多的人致力于尋找新的解決方案以提高分類的性能,代表性的方法包括聯合學習、子空間學習、深度多模態特征學習等。聯合學習是一種經典的用于多模態特征融合的半監督學習方法,該學習方法會對有標簽的樣本獨立地訓練每個模態的特征。針對于無標簽的數據,整個學習過程會從每個獨立的模態網絡挑選標簽置信度最高的無標簽數據加入到訓練網絡。聯合學習的優點在于:每次對于單一模態網絡中數據的更新會參考其他模態的置信度。然而這種方法的實現依賴于訓練集中每個短視頻不同的模態信息針對每一個類別的預測具有很高的置信度,這種要求對于短視頻是很難實現的。

子空間學習是另一類用于多模態特征融合的常見學習方法[17-19]。子空間學習的假設在于不同模態的特征會享有一個公共的子空間。例如,典型相關分析方法(Canonical Correlation Analysis,CCA)[17,19]通過最大化不同模態的特征向量在潛在子空間上的關聯性實現特征的融合及降維。Zhai等[17]在共享子空間中從多視角角度進行多視角度量學習。Franklin[19]將典型相關分析方法應用在數據挖掘和預測等領域。除了典型相關分析方法,采用深度網絡進行特征提取和融合也成為了子空間學習常用的方法之一。Feichtenhofer等[18]借助雙流卷積網絡(Convolutional Two-Stream Network,CTSN)探尋不同模態信息在特征空間的向量表示并進行特征融合。Wang等[20]則在此基礎上使用時域分割網絡(Temporal Segment Network,TSN)提取不同視頻片段的特征,并根據不同片段在不同模態特征空間的分類得分,采用分段函數疊加分類得分且融合不同模態的分類得分,最終實現對視頻的分類。

受到子空間學習的啟發,本文從特征表示空間的角度解決短視頻分類問題,重點在于將特征空間劃分為不同模態的私有域和所有模態的公有域,整個特征空間的數目取決于模態的數量。

2 深度多模態特征融合分類算法

本文算法框架如圖1所示。圖中:Hpa表示音頻模態的私有域特征,Hpv表示視覺模態的私有域特征,Hsa表示音頻模態的公有域特征,Hsv表示視覺模態的公有域特征。本節將對設計的短視頻分類算法進行詳細介紹,具體從特征提取網絡、相似性損失函數、差異性損失函數及分類損失函數4個方面進行描述。

2.1 特征提取網絡

為了挖掘短視頻視覺及音頻模態的時域信息,本文利用3D卷積網絡分別獲取視頻的視覺模態和音頻模態各自的私有域特征及視覺模態和音頻模態的公有域特征。針對視覺模態,按照224×224的尺寸從短視頻中提取連續的32幀視頻幀序列;針對音頻模態,先通過從整個短視頻中按照等間隔將短視頻分為32個視頻片段,再提取這32個視頻片段的音頻片段并將其轉換成為頻譜圖表示這段音頻的變化規律。需要注意的是,頻譜圖相比較視頻幀而言只具有單通道。通過對比不同3D卷積網絡的準確性和訓練的復雜度,決定采用I3D網絡作為特征提取網絡,在該網絡的基礎上微調了網絡的輸出通道,增加了平均池化層,刪除了最后用于分類的全連接層,最終輸出的特征向量維度為512維。

在網絡整體結構設計上,本文將整個網絡按照特征提取的角度劃分為視覺模態信息的私有域網絡、音視覺模態信息的公有域網絡及音頻模態信息的私有域網絡3個模塊。通過降低整體損失函數的數值來優化網絡模型的參數,實現短視頻的特征提取和分類。整個損失函數的實現包含3部分:①相似性損失LS,用于探尋不同模態間(即視覺模態信息公有域特征和音頻模態信息公有域特征)的相似性;②差異性損失LD,用于衡量同一模態內的差異性,即視覺模態信息的私有域特征和公有域特征之間及音頻模態信息的私有域特征和公有域特征之間;③分類損失LC,用于將最后獲得的融合后的全局特征進行分類。整個損失函數表示為

式中:α用于平衡相似性損失在整個損失中的權重;β用于平衡差異性損失在整個損失中的權重;γ用于平衡分類損失在整個損失中的權重。

2.2 相似性損失

通過構建相似性損失,可以獲得視覺模態信息和音頻模態信息公有域特征。本文借鑒了被廣泛應用在人臉識別的孿生相似性損失去探尋不同模態公有域特征之間的相似性。

孿生相似性損失由Chopra等[21]提出,主要應用于人臉識別領域并取得了良好的效果,在此基礎上,越來越多的人致力于孿生網絡結構的優化和使用,Zagoruyko和Komodakis[22]優化了孿生網絡并且將其應用在圖像修復中。Bertinetto[23]、Valmadre[24]等將其使用延展到了目標跟蹤,并且獲得了理想的效果。受到孿生網絡的啟發,本文同樣提出了基于孿生相似性損失的相似性損失,通過降低相似性損失LS_Siamese的值,實現對模態公有域網絡的優化,具體公式為

2.3 差異性損失

本文中,差異性損失被用于探尋單一模態下公有域特征和私有域特征的差異性關系,具體將探討視覺模態公有域特征和視覺模態私有域特征、音頻模態公有域特征和音頻模態私有域特征這兩部分差異性的關系。

本文認為同一模態內私有域特征和公有域特征差異性主要集中在分布差異性和數值差異性兩方面,接下來將以音頻模態的私有域特征和音頻模態的公有域特征為例,從分布差異性和數值差異性2個角度說明整個差異性損失。

針對分布上的差異,由于 KL(Kullback-Leibler)散度被廣泛地應用于評估模型輸出的預測值分布和真值分布之間的差異,因此,在實驗中將采用KL散度算法計算同一模態分布的差異性。在降低差異性損失LD_KL的過程中,從分布差異的角度實現對模態私有域網絡參數的優化,具體公式為

針對在數值上的差異,采用孿生網絡差異性損失的方法去探尋差異性是一種可行的方式,在降低差異性損失LD_Siamese的過程中,從數值差異的角度實現對模態私有域網絡參數的優化,具體公式為

式中:d為可調節的常數,通過設置常數的數值,調整音頻模態私有域特征和音頻模態公有域特征在數值上的差異性。實驗結果表明,當d數值為3時,學習到的私有域特征更有利于提高短視頻分類的準確性。

整個差異性損失的公式為

2.4 分類損失

通過設置分類損失指導整個模型實現分類,本文選擇交叉熵損失作為分類損失函數,在降低分類損失LC的過程中,實現對模態私有域網絡參數的優化,具體公式為

3 數據準備及實驗分析

3.1 數據準備

實驗數據集選擇AI-challenger-mlsv-2018數據集,整個數據集包含大約200 000個短視頻,涉及類別有63類。由于研究目標針對的是短視頻單標簽的分類,此次實驗對存在多標簽的短視頻數據約11 323個進行了排除工作,將處理后的短視頻數據按照10∶3的比例劃分為訓練集和測試集,每個短視頻的視頻長度不超過12 s。

3.2 實驗分析

本節將從實驗結果的角度對提出的網絡進行系統全面的分析,在整個實驗分析中包含以下4種指標:AR(Average Recall)、AP(Average Precision)、Micro-F1、Macro-F1。

3.2.1 網絡復雜度

整個網絡的實現由于采用的是3個結構相同的3D卷積神經網絡分別探尋音頻模態的私有域特征、視覺模態的私有域特征、音視覺模態的公有域特征3部分,而不是采用普遍的音頻模態特征提取網絡和視覺模態特征提取網絡2部分,網絡模型的參數量和輸出的特征總數要高于現在普遍使用的特征融合網絡。在時間復雜度上,因為同時要優化3個網絡模型的參數及引入相似性損失、差異性損失計算損失,整個網絡模型的時間復雜度要高于現階段的視頻分類網絡。

對比表1中5種多模態特征融合分類算法(SlowFast Network[12]、C3D(multimodal)、I3D(multimodal)、TSN[20]、CTSN[18])與本文算法在達到網絡效果最好時所需要的迭代次數,發現本文算法需要的迭代次數最少,為52次,較為明顯地減少了訓練次數的時間成本。分析整個優化過程,由于多模態算法通過計算差異性損失和相似性損失,加速了對網絡私有域特征和公有域特征的分離,同時也加速了整個網絡的收斂和參數的優化。

表1 不同網絡短視頻分類性能對比Table 1 Performance compar ison of micro-video classification in different networks

3.2.2 參數對比實驗

為了使整個網絡的實驗性能取得最好,探尋了相似性損失權重α、差異性損失權重β及分類損失權重γ對整個實驗的影響。為了簡化參數的學習過程,首先在固定分類損失權重γ的前提下,探尋相似性損失權重α和差異性損失權重β對整個實驗結果的影響。參數α、β和γ的不同取值對網絡性能的影響如圖2所示。表明,當固定γ的值時,在調節參數α和參數β的過程中發現,當參數α的值為0.4,參數β的值為0.6時,效果最好。然后固定參數α和參數β的數值,在調節參數γ的數值過程中,發現當參數γ的值為1.2時,提出的網絡性能達到最好。

圖2 參數α、β、γ不同取值對短視頻分類任務的影響Fig.2 Influence of different values of parametersα,β,γon micro-video classification task

3.2.3 實驗性能對比

為了證明本文所提模型的有效性,先后對比本 文 模 型 與 C3D[9]、I3D[10]、R2+1D[14]、Res-Net3D[11]、GoogleNet[25]、S3D-G[15]、SlowFast Network[12]、C3D(multimodal)、I3D(multimodal)、TSN[20]、CTSN[18]共11種視頻分類算法在AR、AP、Micro-F1、Macro-F1這4項指標下的性能。其中,C3D[9]、R2+1D[14]、ResNet3D[11]、S3D-G[15]、GoogleNet[25]和I3D[10]是常用的單模態特征視頻分 類 網 絡,SlowFast Network[12]、C3D(multimodal)、I3D(multimodal)、TSN[20]和CTSN[18]是常用的多模態特征視頻分類網絡。通過觀察表1的數據可以發現,本文算法在AI-challenger-mlsv-2018數據集中AR、AP、Micro-F1、Macro-F1取值分別為0.782、0.795、0.813、0.789,這些數據反映了網絡在短視頻分類任務中的有效性。

3.2.4 消融對比實驗

為了驗證實驗的有效性,表2分別比較了視覺模態特征、音頻模態特征、前期融合特征、公有域特征、私有域特征及本文算法所提取的特征共6種特征。

表2中,視覺模態特征、音頻模態特征是單獨直接將對應的視覺模態信息、音頻模態信息輸入到I3D網絡后得到的分類結果;前期融合是直接將得到的視覺模態特征和音頻模態特征融合后得到的全局特征;而公有域特征則是通過公有域網絡,經過相似性損失約束得到的視覺模態和音頻模態的公有域特征;私有域特征是將視覺模態信息和音頻模態信息分別通過各自私有域網絡,經過差異性損失約束得到的私有域特征。本文算法則是在得到的私有域特征和公有域特征上,對得到的私有域特征和公有域特征融合得到的全局特征,取得了更好的分類效果。

表2 不同網絡短視頻特征分類性能對比Table 2 Performance comparison of micro-video feature classification in different networks

4 結 論

1)針對目前短視頻分類任務中遇到的主要問題,本文提出了一種基于深度多模態特征融合的短視頻分類算法,通過建立相似性損失和差異性損失,探尋短視頻中不同模態之間的相似性和同一模態的差異性,將視頻的特征空間劃分為視覺模態和音頻模態的公有域,視覺模態的私有域和音頻模態的私有域,獲取到視頻的不同模態的私有域特征和公有域特征,將其融合作為短視頻的全局特征,用分類損失指導短視頻的分類。

2)在公開數據集上的大量實驗表明,本文提出的算法成功地獲取到了視頻的不同模態信息在特征空間內的相似性表示和差異性表示,有效地降低了短視頻多模態特征融合時的冗余性,提高了短視頻分類的準確性,較好地解決了短視頻的分類問題。

猜你喜歡
模態音頻卷積
On Doors
基于全卷積神經網絡的豬背膘厚快速準確測定
Egdon Heath (Extract from The Return of the Native)
聯合仿真在某車型LGF/PP尾門模態仿真上的應用
基于老年駕駛人的多模態集成式交互設計研究
一種基于卷積神經網絡的地磁基準圖構建方法
基于3D-Winograd的快速卷積算法設計及FPGA實現
一種并行不對稱空洞卷積模塊①
柏韻音頻舉辦Pureaudio 2021新產品發布會
模態可精確化方向的含糊性研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合