?

多模態檢索研究綜述

2024-03-12 08:58侯騰達顧驍哲
計算機工程與應用 2024年5期
關鍵詞:細粒度哈希檢索

金 濤,金 冉,侯騰達,袁 杰,2,顧驍哲

1.浙江萬里學院大數據與軟件工程學院,浙江 寧波 315100

2.江蘇電力信息技術有限公司,南京 210003

隨著互聯網的不斷發展以及大數據時代的到來,單模態檢索的局限性在如今大數據時代逐漸明顯,為了滿足人們對于信息檢索更加高效全面的需求,多模態學習已經逐漸受到了廣大學者的關注。生活中各種模態的數據在身邊被記錄下來,如文本數據、圖像數據、視頻數據以及嗅覺數據等等。當各個模態的數據整合在一起時,多模態學習的研究也愈發重要。通過人工智能的學習來解決多模態問題,可以更好地度量不同模態間的相似性。

Shi等人[1]對多模態檢索的相關技術進行分類總結,并制定了基準,為該領域發展奠定了良好基礎。本文主要介紹多模態檢索下以圖像-文本檢索為主的檢索方法,同時總結并簡述了一些其他模態間檢索的方法。根據文獻梳理將圖文檢索的方法技術歸納為如圖1 所示。為便于多模態檢索領域初學者能夠了解到此領域最新研究進展,本文研究多模態檢索領域由始以來發展的基本路線和近期研究現狀,主要貢獻如下:

(1)分析多模態檢索主流方法的最新進展,總結現階段多模態檢索存在的挑戰。

(2)與其他研究綜述不同,本文探索了“細粒度+多模態”的檢索方法并對除了圖文檢索外其他模態間檢索方法進行了闡述。

(3)將一些代表性的方法進行測試比較,通過多模態數據集測試得出結果,分析方法之間準確性、效率、特點等方面的差異。最后對多模態檢索的未來研究進行了展望。

1 實值表示學習方法

源于不同的模態數據間無法進行直接的比較,多模態檢索的主要目的就是得到不同模態數據的相似性,而通過實值表示學習方法能使不同模態的數據具有統一的表示從而進行相似性對比[2]。本文主要將實值表示學習方法分為三類:全局特征學習方法、細粒度特征學習方法和混合特征學習方法。如表1所示,分別介紹近年來實值表示學習方法的熱點模型。

1.1 全局特征學習方法

全局特征學習方法通過提取全局特征向量,映射到同一個子空間,通過余弦距離等方式來度量相似性,不同類別的相似度要低于相同類別的相似度,該方法在多模態檢索中減少了語義鴻溝,提高了檢索的準確度。

在經典的基于傳統統計的分析中,Hardoon 等人[3]提出了典型相關分析(canonical correlation analysis,CCA)算法,CCA 算法作為最流行的子空間學習方法,其模型結構簡單并能有效的解決線性關系問題。其主要思想為假設X=[x1,x2,…,xn],Y=[y1,y2,…,yn] 為兩種不同模態特征矩陣,ωx、ωy是兩投影向量,將特征矩陣轉化為線性組合K和G:

構建集合內協方差矩陣ΣXX、ΣYY和集合間協方差矩陣ΣXY:

通過計算K和G兩線性組合之間的相關系數ρ,體現兩者間的相關性:

構建拉格朗日方程L,以為約束條件,找到最佳投影向量ωx、ωy,最大化線性組合K和G之間的相關性:

設λ和θ為系數變量,找到其特征值最大的特征向量:

該算法目標是通過學習兩個線性映射,得到了不同模態之間最大化的特征相似性。但CCA算法僅能解決線性關系的問題,不能解決非線性關系的實際應用。

為了能夠解決CCA算法非線性問題的缺陷,Zhang等人[4]提出了一種將核函數引入CCA 的無監督學習框架——核典型相關分析(kernel canonical correlation analysis,KCCA)。該方法通過非線性映射到公共子空間,將視覺和文本進行連接,為了有效地解決圖像檢索和自動標記的問題,利用用戶提供關鍵字來傳達信息[5]。KCCA在一定程度上彌補了CCA算法的不足,但KCCA方法是非參數的,因此它的可伸縮性不高。并且KCCA和CCA只適用于成對數據。

為了改進了CCA和KCCA只適用成對數據的問題。Rasiwasia等人[6]在原有的CCA算法上進行了新的擴展,提出了聚類相關性分析(cluster canonical correlation analysis,Cluster-CCA),該方法并非是類均值對應關系,而是通過兩個集合中給定類中所有數據點之間的一一對應。Cluster-CCA 能夠學習判別性的低維表示,最大化兩個集合之間的相關性,同時在學習空間上隔離不同的類。由于它在計算協方差的時候對數據的數量呈平方的關系增長,所以在大型數據集的使用上計算量非常大。因此該方法并不適用于大型數據集上的使用。

隨著需求的不斷增加,僅僅只是單視圖或者雙視圖已經無法滿足多模態檢索的需求,Gong等人[7]在原有的基礎上提出了三視圖CCA(3view canonical correlation analysis,3view-CCA)用于捕獲高層次語義。經典的雙視圖CCA只考慮圖像與相應文本特征向量之間的直接相關性。然而,通過考慮與前兩個相關的第三個視圖-圖像的底層語義,可以獲得顯著的改進。

Ranjan 等人[8]在CCA 的基礎上提出了多標簽典型關聯分析(multi-label canonical correlation analysis,ML-CCA),該方法通過多標簽信息學習處理高級語義信息來學習共享子空間,與傳統CCA 不同的是它不依賴于不同模式之間的顯式配對。大多數現有的方法都將不同模式的數據投影到一個可以直接比較的公共空間中。

但是,由于忽略了特征和語義信息的保存,所以無法獲得預期的滿意結果。因此,Shu 等人[9]對ML-CCA做出了進一步改進,提出了(scalable multi-label canonical correlation analysis,SML-CCA),不僅能夠像ML-CCA一樣同時學習兩種模態數據的共同語義空間,而且很好地解決了ML-CCA只關注語義相關性,忽略特征相關性的問題。在上述方法中,經過研究者對方法的改進一定程度上彌補了CCA 的缺點,證明了語義信息對提高多模態檢索精準度的有效性。

為了研究多模態重構,通過多模態重構和單模態重構兩組模型,Feng等人[10]提出了一種涉及對應自編碼器(correspondence autoencoder,Corr-AE)的多模態檢索新模型。將表示學習和相關學習兩段式方法融合到一個過程中。受到深度網絡學習的啟發,一些人就希望能將深度神經網絡與傳統CCA 相結合,Andrew 等人[11]提出了深度典型相關分析(deep canonical correlation analysis,DCCA),這是一種學習兩個數據視圖的組合非線性變換的方法,使得得到的表示高度線性相關。兩個變換的參數被共同學習,使總相關性最大化(正則化)。它可以被視為典型相關分析(CCA)的非線性擴展。但是DCCA仍然存在計算效率不高,內存占用過大等問題。

傳統的特征提取技術限制了圖像識別的性能。由于卷積神經網絡(convolutional neural network,CNN)的發展,視覺識別任務取得了重大進展。為了提升多模態檢索的效率,Wei 等人[12]提出了一種深度語義匹配方法(deep semantic matching,Deep-SM)來解決帶有一個或多個標簽注釋的樣本的多模態檢索問題。通過實驗與典型相關分析(CCA)相比較,證明了CNN 視覺特征在多模態檢索中的優越性。

現有的基于深度神經網絡的方法往往面臨多模態訓練數據不足的挑戰,這限制了訓練的有效性,容易導致過擬合。遷移學習通常用于緩解訓練數據不足的問題。因此,Huang等人[13]提出了模態-對抗混合傳輸網絡(modal-adversarial hybrid transfer network,MHTN),這是一個從單模態源域到多模態目標域的混合轉移過程。與現有的單模態遷移方法不同,這種混合遷移結構可以將源域的大規模單模態數據集的知識聯合遷移到目標域的所有模態中,提取模態無關的補充信息,緩解多模態訓練數據不足的問題。如圖2所示,展示了模態對抗性語義學習子網絡的結構,其中以圖像、文本和音頻為例。

圖2 模態對抗性語義學習子網絡的結構Fig.2 Structure of modal adversarial semantic learning subnetwork

為了能完全保留數據中潛在的多模態語義結構。Wang 等人[14]提出了對抗式跨模態檢索方法(adversarial cross-modal retrieval,ACMR),該模型在對抗機制下執行語義學習。進一步對特征提取施加三重約束,以最大限度地縮小來自具有相同語義標簽的不同模態的所有項目的表示之間的差距,同時最大限度地擴大不同語義的圖像和文本之間的距離。同樣都是利用對抗學習,Peng 等人[15]提出了跨模態生成對抗網絡(cross-modal generative adversarial network,CM-GAN),對不同模態的數據進行聯合分布建模。模態間和模態內的相關性可以在生成模型和判別模型中同時探索。兩者相互競爭以促進模態間相關學習。

1.2 細粒度特征學習方法

識別圖像物體的大類比較容易,但若是需要判別更精細的物體則需要利用細粒度特征學習方法,細粒度特征學習方法目的是對屬于同一基礎類別的圖像進行更加細致的子類劃分。由于類別之間具有細微的類間差異以及較大的類內差異,所以需要捕獲特定區域的細微差異進行分類。

Peng 等人[16]提出了一種基于分層網絡的多粒度融合的多模態學習方法。該網絡可以利用和整合粗粒度實例和細粒度補丁,使模態間關聯更加精確。通過優化網絡引入了對抗學習,Cheng 等人[17]提出了一種用于多模態檢索的深度注意細粒度相似性網絡(deep attentional fine-grained similarity network,DAFSN)。DAFSN模型由兩個子網組成,用于對齊表示學習的注意細粒度相似性網絡和模態判別網絡。為了證明利用子空間學習方法來解決草圖和照片之間的域間隙的可行性。Xu等人[18]介紹并比較了一系列先進的多模態子空間學習方法,并在兩個最近發布的細粒度SBⅠR 數據集上對它們進行了基準測試。

盡管基于深度學習的視覺文本處理系統不斷發展,但精確的多模態匹配仍然是一項具有挑戰性的任務。Messina 等人[19]通過基于詞-區域對齊的圖像-句子匹配來解決模態間檢索的任務。提出了一種新的方法,稱為Transformer 編碼器推理和對齊網絡(Transformer encoder reasoning and alignment network,TERAN)。TERAN 強制在圖像和句子的底層組件(即圖像區域和單詞)之間進行細粒度匹配,以保持兩種模式的信息豐富性。

關于多模態檢索任務中的多尺度稀缺性和目標冗余,Yuan等人[20]提出了一種新的非對稱多模態特征匹配網絡(asymmetric multimodal feature matching network,AMFMN)。該模型可適應多尺度特征輸入,支持多源檢索方法,并能動態過濾冗余特征。為了提高細粒度圖像到文本多模態檢索任務的訓練,Wang等人[21]研究了生成文本-圖像對的開放研究問題,并通過揭示StyleGAN2模型的隱藏語義信息,提出了一種新的配對數據增強框架。

為了保持多模態對齊中獲得的多模態注意力之間的一致性。Zeng 等人[22]通過同時探索具有一致性約束的概念和句法多模態對齊來用于圖像-文本匹配的概念和句法多模態對齊。引入概念級多模態對齊來探索細粒度對應關系。隨后,Sheng 等人[23]提出了一個弱監督對齊模型。該模型利用注意機制并且側重于視覺和文本片段的細粒度多模態對齊和檢索。

如何充分挖掘和利用圖像與句子之間的粗粒度關系或區域與單詞之間的細粒度關系仍然是問題。Li 等人[24]提出了一種新的多尺度細粒度對齊網絡(multiscale fine-grained alignments network,MFA),它可以有效地探索多尺度的視覺文本對應關系,以促進模態間差異的彌合。通過增強細粒度對象在不同模式下的信息交互,開發了一種通道混合方法,并對不同模式下的深度激活通道進行了處理。Shen 等人[25]提出了一種簡單而有效的方法來實現多模態的從屬類別之間的靈活檢索。該方法采用了一種新穎的細粒度多模態中心損失,可以進一步提高多模態的類內可分性和類間緊密性。

考慮到細粒度語義相關學習提供互補提示的模態間關系,Peng等人[26]提出了一種關系聚合交叉圖(relationaggregated cross-graph,RACG)模型,通過聚合模內和模態間關系來明確學習細粒度語義對應關系,可以很好地用于指導特征對應學習過程。細粒度對象檢索旨在學習判別表示,以檢索視覺上相似的對象。Wang 等人[27]開發了細粒度檢索提示調整(fine-grained retrieval prompt tuning,FRPT),從樣本提示和特征自適應的角度引導凍結的預訓練模型執行細粒度檢索任務。

1.3 混合特征學習方法

大多數現有的方法側重于學習全局或局部對應關系,而不能探索細粒度的多級對齊?;旌咸卣鲗W習方法在圖像-文本匹配在視覺和語言之間的橋梁中起著至關重要的作用,利用圖像和句子之間的全局對齊或區域和單詞之間的局部對齊來實現多級對齊。

近年來,探索圖像區域與句子詞局部對齊的細粒度匹配方法在通過聚合成對區域-單詞相似性推斷圖像-文本對應關系方面取得了進展。然而,局部對齊很難實現,因為一些重要的圖像區域可能被不準確地檢測到甚至丟失。同時,一些具有高級語義的單詞不能嚴格對應于單個圖像區域。為了解決這些問題,Xu 等人[28]提出了一種新穎的混合匹配方法,稱為具有語義一致性的跨模態注意力(cross-modal attention with semantic consistency,CASC),用于圖像-文本匹配。擬議的CASC是一個聯合框架,用于執行跨模態注意以進行局部對齊和多標簽預測以實現全局語義一致性。

在之前的工作中,只是簡單地利用預訓練網絡提取圖像和文本特征并直接投射到一個共同的子空間中,或者在此基礎上改變各種損失函數,或者利用注意力機制直接匹配圖像區域和文本短語。這與圖像和文本的語義不匹配。因此,Li等人[29]提出了一種基于全局表示和局部表示的跨媒體檢索方法。構建了一個多媒體的兩級網絡,以探索圖像和文本之間更好的語義匹配,其中包含處理全局和局部特征的子網。在此基礎上,Li 等人[30]又提出了基于全局相似度和局部相似度的模型(global similarity and local similarity,GSLS)。對于全局圖像特征,引入自關注網絡來獲得全局圖像的宏觀表示。對于全局文本特征,使用字符級卷積神經網絡(character-level convolutional neural network,Char-CNN)來獲得整個句子的宏觀表示。對于局部圖像特征,使用Faster R-CNN 獲得圖像的候選區域,并將其發送給卷積神經網絡提取特征。隨后,Zhang 等人[31]提出了一個統一的上下文感知注意力網絡(context-aware attention network,CAAN),它通過聚合全局上下文有選擇地關注關鍵的局部片段(區域和單詞)。

現有的多模態檢索方法只考慮全局或局部語義嵌入,缺乏對象之間的細粒度依賴關系。同時,人們往往忽略了模態之間的相互轉換也有利于模態的嵌入。Zhu等人[32]提出了一種名為BiKA(bidirectional knowledgeassisted embedding and attention-based generation)的方法。該模型采用雙向圖卷積神經網絡建立對象間的依賴關系。此外,它采用了雙向的基于注意的生成網絡來實現模態之間的相互轉換。其中,利用知識圖譜進行局部匹配,約束模態的局部表達;利用生成網絡進行相互轉換,約束模態的全局表達。

多模態檢索不僅要考慮圖像區域與文本詞之間的低級語義對應關系,還要考慮不同模態內關系之間的更高語義相關性。因此,Zeng等人提出[33]了一個具有對象級、對象關系級和更高層次學習子網絡的多層圖卷積網絡。通過局部和全局對齊來學習分層語義對應關系。

基于標量的分數不足以推斷圖像和文本之間的復雜關系。Zhang等人[34]提出了一種新的相似性對比膠囊變換(similarity contrastive capsule Transformation,SCCT)網絡來推斷膠囊聚類的圖像-文本相似性。通過膠囊網絡對詞區域分數向量和短語區域分數向量之間的關系進行編碼,然后用動態變化的膠囊數量獲得更準確的預測。隨著近年來研究的深入,Xie 等人[35]提出了一種基于多視角相似性建模(multi-perspective similarity modeling,MPSM)網絡的多模態檢索方法。具體來說,知識圖譜迭代傳播(knowledge graph iterative dissemination,KGⅠD)模塊旨在迭代傳播全局語義知識,實現領域信息的集成和相關節點的關聯,從而獲得細粒度的模態表示。

如何充分利用圖像和句子之間的全局對齊或區域和單詞之間的局部對齊來推斷更準確地匹配分數仍然未被探索。Diao 等人[36]提出了一種用于圖像文本匹配的新型相似圖推理和注意力過濾(similarity graph reasoning and attention filtration,SGRAF)網絡。引入依賴于一個圖卷積神經網絡的相似性圖推理(similarity graph reasoning,SGR)模塊,推斷與局部和全局對齊的關系感知相似性。相似性注意力過濾(similarity attention filtration,SAF)模塊經過進一步開發,通過選擇性地關注重要和有代表性的對齊,同時拋棄無意義對齊的干擾,有效地整合這些對齊。

實值表示學習方法通過提高圖像文本間的匹配準確度以及減少語義鴻溝來實現檢索準確度的提高,隨著多模態數據在生活中的應用,一些敏銳的學者也將多模態實值學習方法的檢索技術應用到了實際社會生產場景中,Kou 等人[37]針對車聯網中的模態數據,提出了一種基于對象注意和對抗學習(object attention and adversarial learning,OAAL)的通用語義表示方法。隨著社交網絡的快速發展,其中存在的語義缺口和稀疏性給多模態檢索帶來了挑戰。為了減輕語義差距和稀疏性,Shi 等人[38]提出了一種基于互補注意和生成對抗網絡(complementary attention and generative adversarial networks,CAGS)的搜索方法。細粒度特征學習方法也普遍應用于科學歷史研究,因為類別之間具有高度的相似性,而特定類別由于不同的姿態和尺度而具有高度的不相似性。文化遺產圖像[39]是一種細粒度圖像,因為每個圖像在大多數情況下具有相同的相似性。使用分類技術來區分文化遺產建筑可能會很困難。采用細粒度圖像檢索技術對數據庫中的文物圖像進行檢索,可以解決類別之間高度相似和特定類別之間高度不相似的問題。

2 二值表示學習方法

多媒體數據的數量呈爆炸式增長,這使得快速高效地檢索多模態數據成為迫切的要求。在眾多檢索方法中,哈希法以其存儲成本低、快速有效的特點被廣泛應用于多模態數據檢索中[40]。哈希方法通過將原始特征映射到二進制編碼漢明空間來節省存儲空間并加快檢索速度。

哈希函數學習分為兩個階段:(1)降維;(2)量化。降維意味著將信息從原始空間映射到低維空間表示。而量化是指將實際特征的線性或非線性轉換為特征空間的二進制分段以獲取哈希碼。本文的哈希方法主要分為:傳統哈希方法和基于深度哈希的方法。如表2所示,對二值表示學習方法進行了總結,匯總了傳統哈希以及深度哈希方法的經典模型。

表2 二值表示學習方法總結Table 2 Summary of binary representation learning methods

2.1 傳統哈希方法

傳統哈希方法通過二進制編碼的形式將不同模態的數據映射到同一個漢明空間中。計算查詢項哈希碼與數據哈希表關鍵值之間的漢明距離,并使用漢明距離較小的哈希表作為候選搜索范圍,以提高檢索的成功率。本節內容主要包含多模態檢索工作中不包含深度學習方法的哈希方法。

在多語言和多模態信息訪問中的許多應用程序中,數據庫由具有多視圖的數據對象組成,并且需要跨視圖進行相似性搜索。因此,Kumar等人[41]提出了一種跨視圖哈希(cross-view Hashing,CVH),CVH是一種無監督方法。通過一種新的松弛方法將其轉化為可處理的特征值問題,證明了一般問題的一些特殊情況與局部敏感索引和典型相關分析等降維技術有關。但CVH并未充分考慮模態之間的聯系和差異,未能滿足用戶同時接收多種類型數據的需求,為了彌補CVH的缺陷,實現大規模的多模態檢索。Song等人[42]提出了跨媒體哈希(intermedia Hashing,ⅠMH)模型來探索來自不同數據源的多種媒體類型之間的相關性,并解決可擴展性問題??缑襟w哈希的基本思想與CVH 相似,但卻充分考慮了模態之間的聯系和差異,強調保持最近鄰樣本的模態間和模態內相似性。但是,該模型是以犧牲時間復雜度為代價保證檢索效果,不適合應用于大規模數據集。

由于ⅠMH無法適用于大規模數據集的應用,為此,Zhu 等人[43]提出了一種新的哈希方法,稱為線性交叉模態哈希(linear cross-modal Hashing,LCMH),以解決不使用任何先驗知識的可擴展性問題。該模型采用了可擴展k-means算法計算數據點與中心點之間的距離,提升了大規模數據的檢索效率。隨著研究的深入,基于哈希的最近鄰搜索方法在計算機視覺和信息檢索界備受關注。Ding等人[44]提出了集體矩陣分解哈希(collective matrix factorization Hashing,CMFH)它假設所有模態數據的哈希碼映射到公共漢明空間時是一致的。該方法不僅支持跨視圖搜索,而且通過合并多視圖信息提高了搜索精度。

現有的大多數哈希方法通常采用單一模態或簡單地集成多個模態,而沒有利用不同特征的影響。為了解決多模態緊湊哈希碼的學習問題,Cheng 等人[45]提出多圖哈希(multi-graph Hashing,MGH),MGH是一種半監督方法,該方法可以在多圖學習方案中有效地將多種模態與優化權重集成在一起。通過這種方式,可以自適應地調節不同模態的效果。同為半監督學習,Xia 等人[46]提出了判別哈希學習方法(discriminative Hashing learning,DHLing),該方法主要包括兩個模塊,即領域特定優化和領域不變內存庫。具體來說,第一個組件探索樣本的結構知識,用偽標簽預測未標記的圖像,以實現哈希編碼的一致性;第二種方法嘗試構建域不變記憶庫來指導特征生成,實現跨域對齊。

在許多重要的應用程序中,需要比較來自不同模態的數據,這些數據之間的相似性可能具有不同的結構和維度。Bronstein 等人[47]提出跨模態相似敏感哈希(cross-modal similarity-sensitive Hashing,CMSSH),幾乎是近年來第一個有監督的多模態檢索方法。但該方法只考慮了內部相似性。同樣都是有監督學習方法,現有的大多數多模態哈希方法的訓練時間復雜度過高,無法擴展到大規模數據集。Zhang等人[48]提出了語義相關最大化(semantic correlation maximization,SCM)。該方法根據標簽信息學習公共空間的表示,使用語義標記向量計算數據樣本之間的語義相似度。雖然該方法的訓練復雜度不高,但卻不適用于深度哈希中高維度的特征數據集。

為了放松離散約束,現有的方法通常忽略了哈希的固有離散性,這將導致檢索性能的下降。為此,Wang等人[49]提出了語義主題多模態哈希(Semantic topic multimodal maximization,STMH),STMH 很好地維護了哈希碼的離散性。通過保持哈希碼的離散性,使其更適合哈希學習模式,也獲得了更好的檢索性能。

然而,Lin等人[50]有著了與上述不同的思想,他們提出了語義保留哈希(semantics-preserving Hashing,SePH)用于研究圖像文本檢索的問題。當給定訓練數據的語義親和力作為監督信息時,SePH 將其轉換為一個概率分布,并在漢明空間中進行近似,方法是將待學習哈希碼之間的所有成對漢明距離轉換為另一個概率分布Q,并將散度最小化以提升多模態檢索的性能。

通過對無監督學習的深入研究,Liu 等人[51]提出了一種新的無監督多模態檢索方法,稱為自監督相關學習(self-supervised correlation learning,SCL),該方法充分利用大量未標記的數據來學習判別性和模態不變表示,進一步提升了多模態哈希的檢索效率。通過引入自適應方法,Luo 等人[52]提出了一種自適應邊緣語義哈希(adaptive marginalized semantic Hashing,AMSH)方法,該方法不僅可以通過自適應邊緣增強對潛在表示和哈希碼的區分,而且可以用于成對和非成對的多模態哈希。

2.2 深度哈希方法

隨著深度學習算法在計算機視覺領域的重大突破,圖像識別、人臉識別等技術的準確度不斷上升。深度哈希方法將深度學習與哈希圖像檢索相結合,同時擁有檢索精度高,速度快的特點。

得益于深度學習,多模態檢索取得了引人注目的成果。然而,深度多模態哈希方法要么依賴于標記信息的數量,要么無法學習不同模態之間的準確性和相關性。因此,Li等人[53]提出了無監督耦合循環生成對抗哈希網絡(unsupervised coupled cycle generative adversarial Hashing,UCH)用于多模態檢索。該方法通過所提出的耦合循環網絡,實現公共表示和哈希碼學習相互作用,并在網絡收斂的同時達到最優。

由于多模態檢索方法依賴于繁瑣的人工標記過程,不僅引入了主觀誤差,而且耗費了大量的時間和人力成本。Duan等人[54]設計了一個基于Web知識驅動的多模態檢索框架,稱為無監督和魯棒圖卷積哈希(unsupervised and robust graph convolutional Hashing,URGCH)。針對人工標注過程繁瑣、時間成本大的問題,提出了一種“二次語義自融合”方法,自動構建聯合語義矩陣,用于彌合模態差距。隨著對無監督多模態哈希的深入研究,Yang 等人[55]提出了一種新的深度語義對齊哈希(deep semantic-alignment Hashing,DSAH)用于無監督多模態檢索,它充分利用了共同發生的圖像-文本對。隨后,Yu等人[56]設計了一種深度圖鄰相干保持網絡(deep graphneighbor coherence preserving network,DGCPN),DGCPN 源于圖模型,并通過整合數據及其鄰居之間的信息來探索圖鄰居一致性。

由于傳統多模態哈希的性能不能滿足現有的需求,Jiang 等人[57]提出了深度跨模態哈希(deep cross-modal Hashing,DCMH),將哈希碼學習以及特征學習集成到同一框架中。在DCMH 的基礎上,為了提升模態檢索的效率。Li等人[58]提出了一種自監督對抗哈希(selfsupervised adversarial Hashing,SSAH)方法,這是早期以自監督方式將對抗學習納入多模態哈希的嘗試之一。該方法仍然存局限性,忽略了許多多模態數據集在多標簽中包含豐富的語義信息。因此,Zou 等人[59]提出了一種多標簽模態增強的基于注意的自監督深度跨模態哈希(multi-label modality enhanced attention-based self-supervised deep cross-modal Hashing,MMACH)框架。該方法設計了一個多標簽模態增強注意模塊,將多模態數據中的重要特征集成到多標簽特征表示中,以提高其完備性。

幾乎所有采用多模態哈希的現有方法都忽略了異構數據之間的相對相似性,無法獲得強大的哈希碼,從而導致檢索性能不理想。Deng 等人[60]提出了一種用于多模態檢索的基于三重的深度哈希(tripletbased deep Hashing,TDH)網絡。該方法使用三元組標簽,描述了三個實例之間的相對關系,以便捕獲跨模式實例之間的語義相關性。從模態間視圖和模態內視圖建立一個損失函數,以提高哈希碼的鑒別能力。其結構如圖3所示。

圖3 擬議TDH的框架Fig.3 Framework of proposed TDH

為了縮小模態差距以進一步提高檢索精度。Bai等人[61]提出了一種用于多模態檢索的圖卷積網絡哈希(graph convolutional Hashing,GCH)算法,該算法由三個主要部分組成:語義編碼器、兩個特征編碼網絡和基于圖卷積網絡的融合模塊。隨著對細粒度的深入研究,Chen 等人[62]提出了一種具有雙過濾機制和基于代理的損失函數的新型細粒度哈希方法(fine-grained hashing,FⅠSH)。具體來說,雙過濾機制由空間過濾模塊和特征過濾模塊兩個模塊組成,分別解決了細粒度特征提取和特征細化問題。

二值表示學習方法通過哈希算法使其在大規模數據集上的檢索效率有明顯的優勢,隨著多媒體數據量的急劇增加,多模態檢索已成為最普遍但最具挑戰性的問題之一。哈希通過將高維數據嵌入到保持漢明空間的低維相似性空間中[63],為大規模多模態數據搜索提供了一種有前途的解決方案。

3 圖文檢索以外的多模態檢索方法

3.1 視頻-文本檢索

隨著YouTube、TikTok 等互聯網視頻的迅速興起,給視頻內容的準確檢索帶來了巨大的挑戰。多模態視頻-文本檢索能夠理解文字和視頻的內容,從而實現視頻與文本之間的匹配。視頻-文本檢索任務即給定一個文本查詢,根據對文本的描述程度從數據庫中檢索和排序視頻,反之亦然。

為了學習視頻圖和文本圖之間的更好匹配,Jin 等人[64]提出了一種用于視頻-文本檢索任務的分層多模態圖一致性學習網絡(hierarchical cross-modal graph consistency learning network,HCGC),該網絡考慮了視頻-文本匹配的多級圖一致性。設計了三種類型的圖一致性:圖間并行一致性、圖間交叉一致性和圖內交叉一致性。

Chen 等人[65]提出了一種用于細粒度視頻文本檢索的層次圖推理(hierarchical graph reasoning,HGR)模型,該模型將視頻文本匹配分解為全局到局部級別。它利用細節語義改進了全局匹配,利用全局事件結構改進了局部匹配。通過克服視頻和文本之間的異構差距,Feng等人[66]提出了一種用于視頻文本檢索的具有全局-局部對齊(temporal multi-modal graph transformer with global-local alignment,TMMGT-GLA)的新型時間多模態圖轉換器。

為了將細粒度和交叉粒度的相似性矩陣聚合到實例級相似性,Ma 等人[67]提出一種用于視頻文本檢索的多粒度對比模型X-CLⅠP,模型專注于基本框架和單詞之間的對比度,從而降低不必要的框架和單詞對檢索結果的影響。隨后,Jin 等人[68]提出了粗細粒度并行注意力機制和特征融合模塊(coarse-fine-grained parallel attention,CFPGA),使用粗-細粒度并行關注機制來處理多模態視頻的全局和局部特征,從而增強了同一模態視頻特征中特征點之間的關系。將多頭注意機制整合到粗-細粒度并行注意中,增強了模型對特征的接受場,從多個角度處理相同的視頻模態特征。

3.2 音頻-文本檢索

多模態音頻-文本檢索需要學習兩種不同模態的綜合特征表示,并將它們統一到一個共同的嵌入空間中。旨在以另一種方式從給定查詢的候選池中檢索目標音頻剪輯或標題。

早期的工作只關注基于標簽的音頻檢索,其中查詢的是單詞而不是句子。以早期的思想為基礎,Mei 等人[69]針對基于自由形式語言的音頻文本檢索任務,提出了一種簡單有效的聲學語義嵌入學習模型,并在恒定訓練環境下研究了基于該模型的度量學習目標的影響。

語言的相似性并不總是意味著聲學上的相似性,對于臨時的、用戶生成的錄音,這些錄音在音頻及其相關的文本標簽中都是嘈雜的。為了克服這一限制,Elizalde等人[70]提出了一個框架,該框架從共享的詞典聲學空間中學習聯合嵌入,其中來自任一模態的向量可以映射在一起并直接比較。通過引入注意力機制,Bai 等人[71]提出了一種端到端的非自回歸語音識別模型,稱為LASO(listen attentively,and spell once)。該模型將編碼的語音特征聚合到與每個令牌對應的隱藏表示中。

音頻-文本檢索旨在檢索與音頻模態到文本模態的給定實例最匹配的實例,Chao 等人[72]提出了一個新穎的三階段課程互學框架(three-stage curriculum-based mutual learning framework,3CMLF)來提高績效。使用三個構建的訓練集在三階段多模態互學框架下訓練文本和音頻編碼器。3CMLF 適用于大多數當前的音頻-文本模型,因為它不需要更改模型架構。大多數現有的多模態音頻-文本檢索方法并未顯式學習音頻特征中的順序表示。Song 等人[73]介紹了一種基于強化學習和特征融合的順序特征增強框架,以增強多模態特征的順序特征。采用強化學習來探索聽覺和文本特征中的有效順序特征。

生活中不僅只有圖文檢索的應用,Paddeu等人[74]討論了基于Web 的自然語言問答系統的基本體系結構。提出了互動式影音文字指南,以方便參觀博物館。專注于制作有聲文字指南,讓殘障人士也能無障礙地體驗展覽。此外,數據捕獲、存儲和通信技術的進步已經為消費者和企業應用程序提供了大量的視頻數據。與多媒體數據,特別是視頻進行交互,需要更好的文本形式來描述視頻數據。

4 多模態數據集

4.1 常用數據集

隨著多模態數據的普及,為了評價多模態檢索算法的性能,研究人員收集多模態數據,建立多模態數據集。如表3 所示常用的數據集有Wikipedia[75]、Pascal Sentence[76]、Flickr30K[77]、NUS-WⅠDE[78]和MS-COCO[79]。

表3 多模態檢索常用數據集Table 3 Multimodal retrieval of common datasets

Wikipedia:它由帶有相關文本和圖像對的文檔語料庫組成。維基百科將每篇文章分為29 個概念,并將這些概念分配到文章的圖像和文本模塊中。研究人員考慮了10 個最常見的概念,因為有些概念很罕見。最終語料庫由2 866篇文獻組成。

Pascal Sentence:該數據集是Pascal VOC的一個子集,它包含來自20個類別(每個類別50對)的1 000對圖像和文本描述。每個圖像文本對由一個圖像和5 個相應的句子組成。

Flickr-30K:它是Flickr-8K的擴展,包含從不同Flickr組收集的31 783張圖片,與158 915個字幕相關聯,重點涉及人和動物的事件。每張圖都會與由英語母語人士在Mechanical Turk網站獨立撰寫的句子相關聯。

NUS-WⅠDE:這是一個真實世界的網絡圖像數據集,由新加坡國立大學的媒體搜索實驗室組成。它包括:269 648 張圖片和來自Flickr 的相關標簽,其中有5 018個獨特的標簽;81個概念的Ground-truth。

MS-COCO:Microsoft Common Objects in COntext數據集由日常環境中的日常場景圖片組成。該數據集由總共328 000 張圖像和2 500 000 個標記實例組成。為數據集選擇的對象來自91個不同的類別。

mAP 值指平均精準度,衡量檢索到的模態與查詢模態類別是否一致,常用于評估多模態檢索算法性能。給出查詢數據和n個檢索結果,其檢索精度可表示為:

其中,i表示檢索文檔中第i個樣本,P(i)表示的是第i個檢索樣本的精度。另外,如果第i個樣本檢索返回的數據與其本身相關,則δ(i)=1,反之δ(i)=0,Q代表發起查詢的數量,mAP 值越高意味著搜索性能越好,最終mAP值的公式如下:

R@k(Recall@k) 常在MS-COCO 和Flickr-30k等數據集中作為實值表示方法的評價指標,表示正確結果出現在前k個返回樣例占總樣例的比例。RELk代表Top-k結果中的相關項數,REL表示給定查詢的相關項總數。這個指標回答了Top-k中是否找到了相關的結果,其計算公式如下:

4.2 實驗結果對比與分析

本節選取了部分實值表示學習方法和二值表示學習方法中經典的方法模型進行實驗比較。將mAP作為評價指標對方法的進行對比。

如表4所示,將實值表示方法中幾個方法進行對比得出,ACMR、CM-GAN 和OAAL 方法在Pascal Sentence數據集上取得的效果遠優于傳統CCA方法,而ACMR、CM-GAN 和OAAL 三個方法都引入了對抗學習,體現出了對抗學習在多模態檢索中的優勢。OAAL 方法在幾個方法中取得最優效果,證明了其方法將對象注意機制與生成對抗網絡相結合的有效性。

表4 Pascal Sentence數據集上幾種實值表示方法的mAPTable 4 mAP of several real-valued representations on Pascal Sentence datasets

如表5 所示,在Flickr-30k數據集上對幾個實值表示學習方法進行了比較,結果表明TERAN 模型在文本檢索圖像的任務中取得更優R@k值,證明通過在訓練時執行這種細粒度的詞區域對齊,可以在Flickr30K 數據集上獲得先進的結果。MPSM 模型在圖文檢索的表現則更加地全面,表明了傳播語義信息以學習細粒度的模態內相關性并將其納入多模態相似性學習可顯著提高匹配性能,并且從多個角度學習相似性有助于多模態對齊。

表5 Flickr-30k 上實值表示學習方法R@k 值比較Table 5 Real-values on Flickr-30k represent comparison of learning methods R@k values

如表6所示,將二值表示方法中幾個方法進行對比得出,DCMH、DSAH、DGCPN 和TDH 四種深度哈希方法在NUS-WⅠDE 數據集中效果遠優于傳統CVH 方法,表明了深度哈希方法的優勢。TDH方法更是取得最高的mAP,其性能的提高取決于其模態間視圖和模態內視圖建立了損失函數,以增強哈希碼的判別能力。

表6 NUS-WⅠDE上不同哈希方法的mAPTable 6 mAP of different Hashing methods on NUS-WⅠDE

深度學習和哈希算法的結合具有優異的性能。單純的深度學習技術可以幫助人們更好地理解多模態數據之間的關系,如今學者提出了多層網絡組合形成的復雜模型結構,如對抗機制、注意力機制等被運用到模態檢索中去,從而更好地進行多模態匹配,雖然在一定程度上提升了模態檢索的精度,但卻大大犧牲了檢索效率以及需要耗費大量的訓練時間。而哈希算法雖然在檢索效率上有著突出的表現,但其卻破壞了原有的數據結構使得檢索的準確性受損。希望能在將來通過深度學習和哈希算法的結合帶來同時兼顧檢索效率與準確性的方法。

5 多模態檢索未來展望

隨著大量學者對于多模態檢索方法的不斷改進,檢索方法的準確度以及效率都不斷提升,但隨著數據模態以及數量的不斷擴展,人們的需求也不斷增長。未來,仍需不斷改進現有的模型方法,無論是從深度學習方面或是從哈希算法的改進方面,多模態檢索仍將面臨一系列挑戰和機遇。以下是一些思考與展望:

(1)現有的方法通常是應用于文本與圖像兩個模態之間一對一地檢索,現實生活中有著其他許多模態,音頻和視頻等模態間同樣存在著非常大的研究價值,希望未來能將模態檢索的方法擴展到以一種模態檢索出多種模態,或者以多種模態來檢索一種模態以提高多模態檢索的準確性。

(2)多模態檢索中實現更細粒度的檢索,如人像類圖片之中,全局信息或許包含了藍天白云等信息,但圖片之中的人物才應該是最值得關注的局部信息,關注全局語義容易被冗余的信息影響檢索的效率,提取不同模態片段語義特征以及使其實現不同模態片段特征的關聯是提升跨模態建模效果的途徑,因此精細化模態細粒度將是未來提升檢索效率的一個研究方向。

(3)高層語義理解和潛在語義挖掘可以幫助人們更好地理解多模態數據之間的語義關系,從而更好地進行跨模態匹配。隨著對信息檢索的要求不斷提高,解決不同模態間的語義鴻溝仍是重大的挑戰,通過提升多模態檢索的精度來實現對多模態數據間高階語義聯系將會是未來多模態檢索的一個重要發展方向。

(4)增強現實和虛擬現實將會為多模態檢索帶來新的機遇。例如,使用增強現實技術,可以將文本、圖像和音頻信息轉化為現實世界中的虛擬實體,從而更好地展示和理解跨模態信息。

(5)現有的大多數社交媒體網站的數據集樣本類別數量已經無法滿足多模態的檢索要求,對新穎多樣的領域數據集的需求不斷提升。隨著模型的復雜度上升,對數據內容的多樣性有著巨大的需求。如NUS-WⅠDE和維基百科對如今而言已經不夠新穎了,需要引入更符合檢索需求的多模態數據集。

總之,多模態檢索是一個不斷發展和變化的領域,它將會在未來成為人們從多媒體數據中獲取信息的重要手段之一。

6 結束語

多模態檢索是信息檢索領域的一個重要研究方向,其目標是通過結合不同模態的數據,提高檢索系統的效果和性能。該領域的研究涉及多個方面,包括跨語言、跨媒體、跨領域等。近年來,深度學習技術的發展為多模態檢索提供了新的機會和挑戰。在這一領域中,深度學習方法被廣泛應用,包括深度神經網絡、卷積神經網絡、循環神經網絡等。這些方法不僅能夠提高檢索效果,還能夠降低特征提取的復雜度和計算成本。綜上所述,多模態檢索是一個充滿挑戰和機會的研究領域,其發展趨勢將會受到深度學習技術和跨領域合作的影響。

猜你喜歡
細粒度哈希檢索
融合判別性與細粒度特征的抗遮擋紅外目標跟蹤算法
細粒度的流計算執行效率優化方法
2019年第4-6期便捷檢索目錄
基于雙線性卷積網絡的細粒度圖像定位
支持細粒度權限控制且可搜索的PHR云服務系統
專利檢索中“語義”的表現
基于OpenCV與均值哈希算法的人臉相似識別系統
基于維度分解的哈希多維快速流分類算法
基于同態哈希函數的云數據完整性驗證算法
一種基于Bigram二級哈希的中文索引結構
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合