?

文本視覺問答綜述

2024-02-29 04:38朱貴德黃海
計算機工程 2024年2期
關鍵詞:特征文本圖像

朱貴德,黃海

(浙江理工大學計算機科學與技術學院(人工智能學院),浙江 杭州 310018)

0 引言

視覺問答(VQA)[1]是計算機視覺、自然語言處理等領域中的學習任務,它是將給定的一張圖像和一個自然語言問題作為輸入,通過理解圖像和問題來輸出自然語言答案。視覺問答任務通常只關注圖像中的視覺信息,并不考慮圖像中可能包含的文本信息,而這些文本信息對于圖像理解任務至關重要。例如,一個問題是“出現停車標志的街道名稱是什么?”,圖像中的“街道名稱”文本即為問題所需的答案。因此,能夠閱讀并理解圖像中的文本是正確回答該問題的關鍵,文本視覺問答(TextVQA)[2]任務在這一背景下被提出。

文本視覺問答任務是將給定的一張包含文本的圖像和一個自然語言問題作為輸入,通過理解圖像和問題來輸出自然語言答案。文本視覺問答任務通過將問題、圖像中的視覺信息以及圖像中的文本信息3 個模態進行聯合以推理出答案。與視覺問答任務不同,文本視覺問答任務除了關注圖像中的視覺信息外,還需要關注圖像中的文本信息,它是一個比視覺問答任務更具挑戰性的問題,主要表現在以下方面:

1)文本視覺問答任務需要關注圖像中的文本,如何提取有效的文本特征是需要考慮的問題,而視覺問答不需要考慮文本特征。

2)文本視覺問答需要處理文本、視覺以及問題3 個模態的信息,而視覺問答任務只考慮視覺和問題2 個模態。

3)文本視覺問答的問題通常比視覺問答更加復雜,大多都涉及圖像中視覺對象與文本的關系,而視覺問答一般只涉及單個視覺對象。

文本視覺問答任務的問題較為復雜,大多都涉及視覺對象與文本的關系,常見的問題有:

1)目標檢測、文本識別,如“圖中指示牌上寫的是什么?”。

2)視覺對象與文本的空間關系,如“穿紅色衣服的人左邊是誰?”。

3)目標檢測、文本間語義關系,如“香蕉與蘋果哪個便宜?”。

4)屬性分類、文本識別,如“白色的站牌寫的什么?”。

除此之外,文本視覺問答任務的問題還可能涉及更復雜的空間關系以及語義理解,比如“中間一臺手機的時間是多少?”。與視覺問答任務的問題相比,文本視覺問答任務更加復雜,它需要關注多個模態的信息,還需要聯合更多關系進行推理。

自視覺問答任務被提出以來,在該領域涌現了眾多成果。文獻[3-5]提出了有效的VQA 模型。文獻[6]對視覺問答數據集進行介紹并分析了數據集的優缺點,同時對模型進行分類介紹。文獻[7]對比了目前的主流模型,并根據融合機制的不同對模型進行分類介紹。文獻[8]分析VQA 任務中各個模型的原理以及它們的優劣,其中對模型魯棒性進行了研究。文獻[9]對VQA 任務的不同解答階段進行分析和對比。然而,目前沒有相關文獻對文本視覺領域進行綜述。

本文對文本視覺問答任務進行系統性的綜述,主要工作如下:系統地綜述文本視覺問答領域近年來所出現的相關模型,并對模型進行比較;介紹文本視覺問答任務常用數據集以及評估指標;給出文本視覺問答領域未來可能的研究方向。通過上述內容的總結和歸納,以期為文本視覺問答領域的研究人員提供參考。

1 文本視覺問答模型介紹

目前,文本視覺問答模型架構主要包括以下3 個部分:1)特征提取,包括視覺特征提取、文本特征提取、問題特征提??;2)多模態特征融合,將多個模態特征融合并進行推理;3)答案預測,主要分為多分類答案預測和解碼器迭代解碼答案預測。文本視覺問答模型架構如圖1 所示。

圖1 文本視覺問答模型框架Fig.1 Text-based visual question answering model framework

特征提取階段常用的方法如下:視覺特征提取主要使用目標檢測器(Faster R-CNN[10]、YOLO(You Only Look Once)[11])提取基于區域的特征,使用卷積網絡[12-13]提取基于網格的特征,以及使用骨干網絡[14-16]提取特征;文本特征提取主要采用文本檢測器[17-19]來檢測文本區域,然后使用文本識別器[20-22]根據文本區域提取文本內容,通過特征編碼器FastText[23]、PHOC[24]等將文本詞編碼 為特征向量;問題特征提取主要采用詞袋、循環神經網絡(RNN)、長短期記憶(LSTM)[25]、GloVe[26]、基于Transformer的雙向編碼(BERT)[27]等提取特征。

特征融合階段常用的方法如下:利用元素拼接、元素相加或元素相乘等進行融合[28-29];通過簡單注意力方法進行融合,如LoRRA[2]、MM-GNN(Multi-Modal Graph Neural Network)[30]等;基于Transformer[31]架構進行融合,如M4C(Multimodal Multi-Copy Mesh)[32]、SA-M4C[33]、ssBaseline(simple strong Baseline)[34]等;基于預訓練方法進行融合,如TAP(Text-Aware Pretraining)[35]、TWA[36]、LaTr(Layoutaware Transformer)[37]。

根據模型所采用的融合方法進行模型分類,由于簡單融合方法處理方式比較簡單,因此這里主要分為簡單注意力方法、基于Transformer 融合方法和基于預訓練方法這3 個類別,如圖2 所示。

圖2 文本視覺問答任務相關模型分類Fig.2 Text-based visual question answering task-related models classification

1.1 簡單注意力方法

簡單注意力方法將問題作為查詢條件,引導模型關注視覺和文本中與問題最相關的部分,它大幅增強了模型的推理能力。例如問題“公交車的路線是什么?”,模型應該更關注圖像中與“公交車路線”相關的文本。模型通過關注圖像中的關鍵部分,去除圖像中存在的冗余及噪聲,減輕計算負擔。簡單注意力方法框架如圖3 所示。

圖3 簡單注意力方法框架Fig.3 Simple attention method framework

文獻[2]提出LoRRA 模型,它將自上而下注意力方法[38]運用到文本視覺問答中,以問題作為查詢條件,引導更新文本以及視覺特征,去除了圖像中存在的冗余及噪聲,最后將更新后的特征串聯起來,通過多分類方法來預測答案。LoRRA 是早期聯合圖像文本進行推理的模型,它采用答案復制機制,動態地將識別的單詞添加到答案分類器中,允許從圖像中復制單個圖像文本作為答案。LoRRA 模型在TextVQA 數據集的驗證集和測試集上準確率分別達到26.56%、27.63%。但LoRRA 模型存在以下缺點:1)文本特征不夠豐富,忽略了圖像中文本的外觀特征;2)忽略了空間關系的處理,無法回答包含空間關系的問題;3)無法輸出由多個單詞組成的長答案。

文獻[30]提出了MM-GNN 模型,它使用3 層圖神經網絡(GNN)[39]對視覺特征和文本特征進行聚合,以重建特征間的空間關系與語義關系。MMGNN 以問題作為查詢條件,引導圖推理,并在圖推理結束后使用自上而下注意力方法對視覺和文本特征進行更新,最后采用多層感知機和答案復制機制[40]來預測答案。MM-GNN 算法利用圖像中的上下文信息來幫助理解圖像文本的含義,通過不同圖神經網絡的引導優化視覺和文本特征,模型可以更準確地回答問題。與LoRRA 相比,MM-GNN 使用多層圖對特征進行聚合,使得模型在融合階段可以更好地利用上下文信息進行輔助推理。通過采用圖像上下文的豐富信息來幫助理解圖像文本含義,MM-GNN 的準確度相對于LoRRA 有了進一步的提升,其在TextVQA 數據集的驗證集和測試集上準確率分別達到32.92%、32.46%。但MM-GNN 模型的缺點為:1)無法生成包含多個單詞的長答案;2)文本特征不夠豐富,僅包含詞嵌入特征;3)模型采用多層圖結構,較為復雜。

文獻[41]將每個視覺對象和圖像文本分別作為單個實體,針對每個實體提取特征,使用問題做引導計算出每個特征的注意力分數,求出特征的加權平均和作為注意力模塊的輸出,最后,模型通過LSTM[25]迭代解碼來預測答案。與LoRRA 相比,該模型可以解碼生成包含多個單詞的答案。

文獻[42]采用視覺特征和文本特征構建多模態特征網格,以問題作為推理條件,通過卷積網絡以及線性變換對多模態特征網格進行推理,計算出每個網格的注意力權重,這些注意力權重即為答案在該空間網格位置的概率。模型通過特征網格的方式進行融合推理,可以為答案提供依據。但是,這種方式對文本邊界框有限制,使得模型不能很好地處理較小的文本。

文獻[43]在LoRRA 的基礎上對視覺特征和文本特征進行融合,通過雙線性函數去除文本中的噪聲,并通過語義注意力和位置注意力來捕獲文本與視覺對象之間的關系。在對視覺和文本特征融合時,模型以文本特征為指導,使用自上向下注意力方法更新視覺特征,視覺和文本特征融合方法如圖4所示。此外,為了增強文本特征表示,使用單步詞識別架構[44]提取圖像中的文本詞,并引入費舍爾向量(FV)[45]特征,它含有的信息更加豐富且易于計算。與LoRRA 相比,該模型沒有采用復制答案的方法,而是使用指針網絡[46]來預測答案,它可以直接預測來自文本的答案。

圖4 視覺-文本融合方法框架Fig.4 Vision-text fusion method framework

簡單注意力方法以問題作為查詢條件,引導模型關注圖像中與問題有關的信息,過濾特征中的冗余信息,減輕了模型的計算負擔。但是簡單注意力方法只針對2 個模態的融合,不能很好地處理多個模態的融合。此外,注意力方法只是使模型關注重點特征,并沒有聯合周圍特征進行推理。如何獲取圖像文本和視覺對象的空間關系以及語義關系,并根據空間關系和語義關系進行推理仍需要繼續研究。

1.2 基于Transformer 融合方法

基 于Transformer[31]融合方 法使用Transformer作為融合器,將多模態特征作為融合器的輸入進行融合。與簡單注意力方法相比,Transformer 使用自注意力機制,可以很好地處理長序列數據,輸入序列之間可以相互關注。Transformer 融合方法可以同時對多個模態特征進行融合,特征間的聯系更加緊密。

文獻[32]提出M4C 模型,它首次使用Transformer[31]架構對多模態進行融合,將來自問題、視覺和文本3 個模態的特征映射到統一維度并進行融合。Transformer 獨特的自注意力機制使得輸入的每個特征向量間可以相互學習。另外,M4C 模型通過動態指針網絡[46]以自回歸的方式迭代解碼預測答案。M4C 模型添加了豐富的文本特征,如外觀特征、邊界框信息等,增強了文本特征的表達能力,通過迭代解碼預測答案,模型可以回答包含多個單詞長答案的問題。M4C 模型在TextVQA 數據集的驗證集上準確率達到39.4%,遠高于之前方法,這得益于Transformer 獨特的自注意力機制以及使用了豐富的文本特征。M4C 模型框架如圖5 所示。

圖5 M4C 模型框架Fig.5 M4C model framework

但是M4C 模型存在以下缺點:1)將全部特征作為融合器的輸入,會增加融合器的計算負擔;2)無差別地對所有特征計算注意力,會引入冗余特征與噪聲;3)未對視覺特征和文本特征之間的空間關系進行顯式處理。

以下模型在M4C 的基礎上進行改進,根據不同特點主要分為聯合圖推理的模型、帶有答案解釋的模型、引入豐富特征表示的模型和引入外部知識的模型。

1.2.1 聯合圖推理的模型

圖神經網絡(GNN)[39]在結構特征學習中有較好的表現,不僅能夠聚合周圍鄰居節點的信息,還能很好地捕獲節點之間的關系。聯合圖推理模型在Transformer 融合之前使用圖神經網絡對輸入特征進行處理,重建特征之間的空間關系和語義關系,增強模型推理能力。聯合圖推理模型框架如圖6 所示。

圖6 聯合圖推理模型框架Fig.6 Framework of joint graph reasoning model

文獻[33]提出SA-M4C 模型,它通過構建空間圖網絡來捕獲相鄰視覺實體(檢測的視覺對象與文本)之間的空間關系[47],并通過修改Transformer 注意力層,使每個頭只關注存在固定關系的2 個特征向量。此外,SA-M4C 增加二分圖來構建問題特征與視覺和文本特征的隱式關系。模型采用6 層Transformer 自注意力層,其中前2 層為經典架構,后4 層被修改為空間感知層,通過在計算注意力分數時添加偏置項,使每個頭關注存在不同空間關系的實體。M4C 在融合階段隱式地學習來自特征中坐標信息的空間關系,這對于空間推理幾乎沒有幫助,SAM4C 很好地解決了這個問題。SA-M4C 在TextVQA數據集的驗證集上準確率達到43.9%,比同等條件下M4C 的準確率略高(同等條件下M4C 的準確率為42.7%)。SA-M4C 有較好的結果得益于2 個方面:1)采用了準確率更高的文本識別系統;2)對視覺實體之間的空間關系進行了處理。但是SA-M4C 模型存在以下缺點:1)對于視覺實體之間空間關系的處理采用手工設置,方法較為粗粒度;2)將所有模態特征作為輸入,模型計算負擔較大。

文獻[48]提出MTXNet 模型,它擴展了M4C 架構,為了更好地捕獲并編碼視覺對象和圖像文本之間的關系,它采用圖神經網絡將多模態特征連接在一起,并通過圖注意力網絡(GAT)[49]對圖中節點信息進行更新。與SA-M4C 相比,MTXNet 構建的空間關系更加細粒度,但MTXNet 在構建圖的邊時,只有邊界框存在包含關系的2 個節點間才會構建邊。

文獻[50]提出SMA 模型,它使用圖神經網絡來捕獲節點之間的關系,增強文本閱讀能力和文本視覺推理能力。SMA 不使用整個問題特征來指導圖的更新,而是使用經過自注意力模塊后的子問題特征作為查詢條件,指導圖神經網絡更新。SMA 計算圖中每個節點的權重,然后根據權重分別求出視覺特征與文本特征的加權特征和,并將加權特征和作為全局特征送入Transformer 融合器中。SMA 并沒有聚合鄰居節點的信息,而是以問題為引導,計算出節點自身的權重。與SA-M4C 相比,SMA 模型以節點之間的相對距離來確定節點之間的連接,拋棄了手工設置關系,捕獲到視覺實體之間更加細粒度的關系。SMA 在TextVQA 數據集的驗證集和測試集上準確率分別為43.74%、44.29%,它的性能提升得益于使用了準確率更高的文本識別系統[51-52]以及對視覺實體之間的關系進行了處理。但是SMA 模型有以下2 個缺點:1)圖推理中只使用問題關注節點和節點之間的關系,沒有為節點加入上下文信息;2)模型需要對每個節點進行處理,計算負擔較大。

文獻[53]提出CRN 模型,它使用多模態推理圖來構建圖像文本和視覺對象之間的空間關系,解決了由于分別使用目標檢測器和文本識別系統提取特征而導致的特征相互獨立且比較分散的問題。與SMA 模型不同,CRN 采用以問題為指導的注意力方法聚合鄰居節點信息,對每個節點進行更新。此外,為了使模型可以從冗余的圖像信息中提取有用信息,CRN 中加入了漸進式注意力模塊來過濾掉無用信息。CRN 還添加了策略梯度損失來減輕對文本識別系統的依賴,主要思想為訓練過程中當預測值與真實值相似但不相同時,模型不會只獲得負的訓練反饋。CRN 在TextVQA 數據集的驗證集和測試集上準確率分別為40.39%、40.96%,比同等條件下M4C 的準確率高了1%。CRN 有較好的性能提升得益于使用了圖推理、漸進式自注意力方法以及策略梯度損失。但是CRN 模型存在以下缺點:1)模型在漸進式自注意力模塊中不使用視覺特征,性能沒有明顯的變化,說明漸進式自注意力模塊并未對視覺特征進行很好的推理;2)模型僅處理了視覺和文本2 個不同模態間的關系,并沒有處理相同模態間的關系。

文獻[54]提出MGEN 模型,它使用問題特征和全局視覺特征引導圖神經網絡進行更新,通過圖網絡來重建文本之間的空間關系,并去除文本中的噪聲和冗余。CRN[53]通過使用多模態推理圖來構建文本和視覺之間的關系,而MGEN 則是通過圖神經網絡來重建文本之間的空間關系。另外,為了進一步去除特征中的冗余信息,MGEN 對Transformer 融合器進行修改,向其注入全局特征來引導融合器關注重要信息。

圖神經網絡對于特征間關系的重建有著較強的能力,能夠建立更加細粒度的關系,引入豐富的上下文信息。使用圖神經網絡,模型可以更好地理解場景文本的含義,回答包含空間關系屬性的問題。

1.2.2 帶有答案解釋的模型

帶有答案解釋的模型是在圖像上構建答案區域或者生成答案解釋,目的是為答案提供依據。如圖7所示,問“公交車的路線是什么?”,帶有答案解釋的模型為答案構建答案區域以指示答案的合理性,或者生成答案解釋表示答案的位置、字體等信息。先前一些其他計算機視覺領域的工作研究了帶有答案解釋的方法,其中文獻[55-57]通過計算出注意力分數在圖像上構建答案區域,文獻[58-59]為答案生成答案解釋。然而,在文本視覺問答任務中為答案提供解釋的工作較少,目前只有文獻[48,60]。

圖7 在圖像中構建答案區域以及生成文本解釋的示例Fig.7 Examples of constructing answer regions in images and generating text explanations

文獻[60]提出LaAP-Net 模型,它通過預測邊界框來為答案提供依據,在答案評估階段對預測的邊界框和文本一同計算損失。另外,為了更好地利用視覺信息,模型根據圖像文本和視覺對象之間的空間關系,將視覺特征加入文本特征中。在此前的一些工作中(如LoRRA[2]、M4C[32]等),文本的位置信息未被充分利用,LaAP-Net 通過預測邊界框并將預測的邊界框參與答案預測以及損失計算,使模型在訓練過程中充分考慮到文本的位置信息。與M4C 相比,LaAP-Net 不僅為答案提供了依據,還更好地利用了文本的位置信息,提升了模型性能。LaAP-Net在TextVQA 數據集的驗證集上準確率為40.68%,優于相同條件下的M4C。但是LaAP-Net 模型存在以下缺陷:1)根據空間關系將視覺特征加入文本特征中,并未使用問題進行引導,因此加入的視覺特征中包含很多冗余信息;2)在訓練階段需要提供答案依據的數據集,目前這樣的數據集較少。

文獻[48]提出MTXNet 模型,它使用圖像語義分割在圖像上構建答案區域,并且為答案提供文本解釋。MTXNet 根據圖像收集多種文本解釋,模型每次隨機選擇一個參與訓練,以降低文本解釋存在的偏差。為了使模型具有更好的性能并較好地生成多模態解釋,MTXNet 設置多個訓練任務,分階段進行訓練。與LaAP-Net 不同,MTXNet 采用生成文本解釋和構建答案區域的方式為答案提供依據。

帶有答案解釋的模型更加顯式地把推理過程展現出來,為答案來源提供依據。通過將答案依據參與損失計算,進一步提升了模型性能。

1.2.3 引入豐富特征表示的模型

在文本視覺問答任務中,通常需要3 個模態的特征,分別是視覺特征、文本特征和問題特征。特征的提取對模型性能有著很大影響,通過引入豐富特征可以有效地提升模型性能。引入豐富特征的方法如下:1)增加一個模態特征,如增加全局特征;2)在原有特征中引入新的表示,如在視覺特征中加入對象標簽特征;3)對原有特征進行修改,如將文本特征劃分為文本視覺特征和文本語言特征。

文獻[61]提出PAT-EAM 模型,為了保留原始圖像信息,除了提取視覺特征和文本特征外模型還提取了全局圖像特征,以提供全局上下文信息輔助模型推理。同時,PAT-EAM 采用實體對齊網格(全局特征網格)替代復雜的圖神經網絡,通過卷積操作更直接全面地捕捉視覺對象和圖像文本之間的語義和空間關系。

文獻[62]提出BOV 模型,它在原有文本特征基礎上加入額外的語義特征,由與文獻[63-64]類似的端到端模塊直接通過圖像的文本區域提取得到。該模塊除了直接獲取文本特征編碼外,也對文本區域做了文本識別,為答案預測提供候選文本。該模塊的使用降低了模型對文本識別系統的依賴,避免了文本識別系統誤差帶來的影響。另外,BOV 在視覺特征中引入對象標簽特征,打破視覺和文本之間存在的差異,更好地對文本特征和視覺特征進行融合。對象標簽特征通過擴展原始Faster R-CNN[10]模型,使其生成對象標簽特征向量而得到。BOV 通過引入這些額外的特征,模型性能有了大幅提升,但是針對這些額外特征,模型需要訓練額外模塊才能提取,模型復雜度較高。BOV 在TextVQA 數據集的驗證集和測試集上準確率分別為40.90%、41.23%,BOV能取得較好的性能提升得益于3 個方面:1)采用端到端的模塊提取文本特征;2)加入對象標簽特征增強融合;3)使用端到端的模塊識別文本,并將其作為候選答案,減輕對文本識別系統的依賴。但是BOV模型的缺陷也很明顯:1)需要預先單獨訓練多個模塊,增加了工作量;2)模型忽略了視覺實體間存在的空間關系;3)將所有特征作為融合器的輸入,融合器計算負擔較大。

文獻[65]提出MML&TM 模型,它采用文本合并算法,將圖像中具有鄰近關系的文本合并在一起,構建行級和段落級的文本,然后對合并后的文本提取文本特征,這樣提取的文本特征包含文本上下文信息,更具有連續性。與M4C 不同,MML&TM 通過將文本進行合并,在答案預測階段無須采用迭代解碼便可生成多個單詞的答案。

文獻[34]提出ssBaseline 模型,為了更有效地利用文本特征,該模型將文本特征分成文本視覺特征和文本語言特征,這樣更加符合人類推理的過程,即人類會從視覺和語義2 個方面理解場景文本。在之前的工作[32]中,將所有的特征送入融合器,模型計算負擔較重。為了減輕計算負擔,過濾掉冗余特征,ssBaseline 模型采用注意力模塊,以問題引導模型關注特征。相較于其他模型,ssBaseline 在設計上非常簡單,降低了模型的計算負擔,有效提升了模型性能。ssBaseline 在TextVQA 數據集的驗證集和測試集上準確率分別為43.95%、44.72%。ssBaseline 的性能提升主要得益于使用了與SMA[50]一樣的文本識別系統以及將文本特征分成兩部分,模型在保證性能的同時大幅減輕了計算負擔。但是ssBaseline 模型存在以下缺陷:1)忽略了視覺實體間存在的關系,沒有處理場景文本和視覺對象之間的關系;2)沒有充分利用視覺信息,在去除視覺特征時模型性能改變不大。

文獻[66]提出SC-Net 模型,它也將文本特征分為文本視覺特征和文本語言特征,并將文本視覺特征融入文本語言特征中,以突出場景文本語義在模型推理中的重要作用,減輕對文本識別系統的依賴。此外,SC-Net 通過融合器輸出的全局信息指導答案預測,以減少語言偏見。

豐富特征表示可以增強特征在模型中的表達能力,使模型更好地理解多模態信息。以上研究大多旨在增強文本特征的表達能力,忽略了視覺特征的作用。然而,在模型推理過程中往往需要根據視覺特征來輔助推理,找到問題的答案。在增強文本特征表達能力時,充分利用視覺信息輔助推理也很關鍵。

1.2.4 引入外部知識的模型

文本視覺問答任務中一些問題僅僅通過圖像是不能正確回答的,比如“這杯牛奶是什么品牌?”。如果模型擁有外部知識,它能預先理解“伊利”、“蒙?!钡任谋臼瞧放泼?,那么這些文本作為答案的概率將更大,像這種類型的問題都需要借助外部知識才能夠準確地回答。在視覺問答任務中已有工作通過引入外部知識進行輔助推理,如文獻[67-69]通過采用包含知識的數據集來使用知識輔助推理,文獻[70-72]則通過問題詞和對象標簽從外部知識庫中查詢知識來使用知識輔助推理。但是在文本視覺問答任務中引入外部知識的工作較少,值得繼續研究。

文獻[73]提出EKTVQA 模型,它是文本視覺問答領域中首次引入外部知識來輔助推理的模型,通過從外部知識庫檢索來獲取知識。EKTVQA 利用場景文本從谷歌知識庫(GKB)中獲取候選知識,并通過圖像上下文信息(問題詞、文本、對象標簽)過濾掉候選知識中無效的知識,將有效的知識聯合問題、文本和視覺對象進行推理,指導答案生成。在融合推理期間,模型通過在自注意力層添加偏置項來保證文本與知識的一一對應。EKTVQA 通過引入外部知識,使模型能夠理解文本的含義,提升模型的理解能力。此外,EKTVQA 利用場景文本去外部查詢知識,這種引入外部知識的方式不受數據集的影響。EKTVQA 模型在TextVQA 數據集的驗證集和測試集上準確率分別為44.26%、44.20%。EKTVQA 模型框架如圖8 所示。但是EKTVQA 模型存在以下缺陷:1)將所有模態特征送入融合器,模型計算負擔較大;2)增強了模型對場景文本的理解,但是忽略了視覺實體間的空間關系。

圖8 EKTVQA 模型框架Fig.8 EKTVQA model framework

基于Transformer 的融合方法對于2 種及以上模態的融合具有較好的效果,它可以均勻地捕捉模態內和模態間的關系,可以很好地處理長序列數據。但是也正是由于Transformer 均勻地對各個特征進行交互,模型會學習到很多冗余的信息或者噪聲,同時也會增加模型的計算負擔。

1.3 基于預訓練方法

基于預訓練的方法通常分為2 個階段,即預訓練和微調。在預訓練階段,模型通過在大量數據集上進行無監督預訓練,以學習到通用知識;在微調階段,模型使用小規模數據集針對具體任務進行有監督訓練。預訓練方法可以在有標注數據集規模較小時,通過在大規模無標注數據集上訓練來使得模型學習到有用知識,它很好地解決了由于數據集規模較小導致模型性能較低的問題。先前一些工作[74]對視覺語言領域的預訓練工作進行了總結,其中文獻[75-77]介紹了可用于視覺問答的預訓練方法。然而,在文本視覺問答任務中使用預訓練方法較少,目前只有文獻[35-37]。

文獻[35]提出TAP 模型,它除了采用屏蔽語言模型(MLM)、圖像文本匹配(ITM)作為預訓練任務外,還引入相對(空間)位置預測(RPP)預訓練任務。TAP 通過相對(空間)位置預測預訓練任務來構建圖像文本和視覺對象之間的空間關系[47],增強模型的空間推理能力。相對(空間)位置預測預訓練任務隨機選擇2 個視覺實體,預測2 個實體之間的空間關系。TAP 使用文本視覺問答數據集來對預訓練好的模型進行微調。TAP 在TextVQA 數據集的驗證集和測試集上準確率分別為49.91%、49.71%,遠高于傳統的不使用預訓練方法的模型。TAP 模型框架如圖9所示。但是TAP 模型存在以下缺陷:1)需要較大規模的數據集,在預訓練階段數據集規模越大,模型的理解推理能力越強;2)預訓練方案對硬件設施有要求,往往需要比較高的配置;3)忽略了文本之間的空間布局信息。

圖9 TAP 模型框架Fig.9 TAP model framework

文獻[36]提出TWA 模型,它在TAP[35]的基礎上增加圖像文本-單詞對比學習(TWC)預訓練任務,以減輕模型對外部文本識別系統的依賴以及增強模型的魯棒性,使得當文本識別出錯時模型仍能進行正確的推理并預測出正確答案。TWC 具體任務是對識別的文本與使用CharBERT[78]修改的文本進行對比學習,然后預測兩者的關系。

文獻[37]提出LaTr 模型,它在IDL 文檔上采用布局感知預訓練來學習文本信息和布局之間的對齊。通過大量文檔的訓練,它可以推理任意形狀的句子,有效地捕獲文本上下文關系。布局感知預訓練通過屏蔽文本標記(文本信息和邊界框信息),讓模型預測被屏蔽的文本和邊界框,從而有效地學習到文本信息與布局間的對齊。與TAP 和TWA 不同,LaTr 并沒有使用視覺特征預訓練,只對文本信息和布局進行了學習。為了消除對外部對象檢測器的依賴,LaTr 在下游微調中采用ViT[79]進行視覺特征提取。LaTr 進行預訓練與微調之后,在TextVQA 數據集的驗證集上準確率為52.29%,比同等條件下TAP高了2.38%。LaTr 模型框架如圖10 所示。但是LaTr模型存在以下缺陷:1)模型的性能與數據集規模有關,數據集越大,模型性能越好;2)模型參數比TAP大,需要更高的配置;3)模型存在數據集偏差。

圖10 LaTr 模型框架Fig.10 LaTr model framework

與其他基于Transformer 架構的模型相比,預訓練模型在數據集上的表現有了明顯提升。但是,由于硬件的限制,目前在文本視覺問答任務中預訓練模型較少。預訓練模型通過大量訓練可以達到很好的效果,模型潛力巨大,值得深入研究。

1.4 模型性能對比

對前文所述主流模型進行對比,對比內容包括特征提取方法、文本特征以及在TextVQA 數據集上的準確率,結果如表1 所示。模型特點對比如表2 所示。從表1、表2 可以得出:

表1 模型框架及在TextVQA 數據集上的性能對比 Table 1 Models framework and performance comparison on TextVQA dataset

表2 模型特點對比 Table 2 Comparison of models characteristics

1)模型的性能在很大程度上依賴于文本識別系統的準確率,文本識別系統準確率越高,模型性能越好;

2)模型使用Transformer 進行融合比使用傳統的串聯效果更好;

3)使用預訓練方法的模型可以更好地捕獲視覺實體(視覺對象和場景文本)間的空間關系以及問題與視覺實體之間的關系;

4)普通的Transformer 方法在M4C 之后雖然有改進,但是性能提升幅度不大,與預訓練方法對比可知,普通方法的關系推理能力很弱,不能很好地捕獲實體間的空間關系以及多模態間的語義關系。

2 數據集以及評價指標

2.1 數據集介紹

2.1.1 TextVQA 數據集

文獻[2]提出TextVQA 數據集,它使用Open Images v3[80]數據集作為圖像源,過濾掉不包含文本的圖像以及有噪聲的數據,共得到28 408 幅圖像,其中多數為生活中常見的包含文本的場景圖像,如廣告牌、交通標志等。TextVQA 數據集中一共包含45 336 個問題和453 360 個答案。平均每張圖像對應1~2 個問題,平均問題長度為7.18 個單詞,平均答案長度為1.58 個單詞。訓練集包含21 953 幅圖像、34 602 個 問題,驗證 集包含3 166 幅圖像、5 000 個問題,測試集包含3 289 幅圖像、4 734 個問題。該數據集中每個問題都需要閱讀圖像中的文本才能回答,圖像中文本可以直接作為答案,也可以作為推理的依據。

TextVQA 數據集采用VQA 中廣泛使用的評估指標,假設模型預測輸出為ans,則單個問題樣本的分數為:

其中:Nhumansthatsaidans表示人類注釋與預測相同的數量。TextVQA 數據集為每個問題都提供了10 個答案,如果預測答案至少與3 個注釋者提供的答案相同,則準確率為100%。一共會出現4 種分數,即0、、1。最后,對所有問題分數取平均值作為數據集準確率。這種評估方法存在一些局限性,不同注釋者針對同一問題給出的答案不盡相同,從而使得無法在這種問題上獲得滿分。

2.1.2 ST-VQA 數據集

文獻[81]提出ST-VQA 數據集,它包括23 038 幅來自公共數據集的圖像,這些數據集包括場景文本理解數據集和通用計算機視覺數據集,使用多種數據源,分別為ICDAR 2013、ICDAR 2015、ImageNet、VizWiz[82]、IIIT Scene Text Retrieval、Visual Genome和COCO Text,共包含31 791 個問題和答案對,該數據集每張圖片的問題數量、每個問題的平均長度以及答案的平均長度都與TextVQA 高度相似。訓練集包含19 027 幅圖像、26 308 個問題,測試集包含2 993 幅圖像、4 163 個問題。ST-VQA 數據集旨在強調在視覺問答過程中利用圖像中的高級語義信息作為文本線索的重要性。在該數據集中,問題只能基于圖像中的文本進行回答,不包含答案為“是/否”的問題,也不包含可以只根據視覺信息進行回答的問題。

ST-VQA 采用平均歸一化Levenshtein 相似性(ANLS)作為評估指標,ANLS 定義如下:

其中:N表示數據集的問題總數;j表示答案的索引(每個問題共有M個真值);aij表示第i個問題的第j個真實答案;oqi表示模型預測答案;定義閾值τ為0.5;NL(·)表示歸一化Levenshtein 距離。ST-VQA 使用Levenshtein 相似性作為評估指標,即只要推理正確,盡管文本識別出錯,也不會直接評判為錯誤。

2.1.3 OCR-VQA 數據集

文獻[83]提出OCR-VQA 數據集,它主要是針對圖像文本的問答,包含207 572 幅封面圖片,1 002 146 個問題答案對,其中的問題主要是針對書本封面進行的提問。書籍封面包含作者、標題、類型等元素信息,模型通過視覺信息和文本信息進行推理,從而回答問題。數據來源于Book Cover Dataset,數據集中訓練集、驗證集和測試集的比例為8∶1∶1。該數據集中平均問題長度為6.46 個單詞,平均答案長度為3.31 個單詞,每個圖像平均有4.83 個問題。但是在該數據集中存在一些特殊的挑戰:1)書籍封面有各種布局,需要模型推理各種布局的文本;2)數據封面字體較為獨特,需要穩健的文本識別系統;3)需要有額外的知識才能理解書籍封面的文本。

2.1.4 STE-VQA 數據集

文 獻[84]提 出STE-VQA 數據集,它收集 了25 239 幅圖像,這些圖像來自于Total-Text、ICDAR 2013、ICDAR 2015、CTW1500、MLT 和COCO Text,中文圖像來自于LSVT,這些場景文本數據集的圖像都由日常場景組成。英文訓練集圖像有11 383 幅,測試集圖像有2 267 幅,訓練集問題有12 556 個,測試集問題有2 500 個。中文訓練集圖像有9 374 幅,測試集圖像有2 215 幅,訓練集問題有10 506 個,測試集問題有2 500 個。平均問題長度為6~8 個單詞,平均答案長度為1~2 個單詞。數據集中問題只能通過閱讀圖像中的文本來回答,不包含答案為“是/否”的問題以及有多個正確答案的模糊問題。

STE-VQA 數據集除了提供圖像、問題和答案以外,還為每個問題提供了一個邊界框作為答案的證據,指示答案基于圖像的哪個區域得到。

STE-VQA 數據集提出新的性能評估指標,該評估指標更傾向于推理過程而非推理結果。評估協議包括2 個部分,一是檢查答案,二是檢查證據。對于答案的評估,采用歸一化Levenshtein 相似性分數,與ST-VQA 中的s(·)評估協議函數一致。對于證據(邊界框)的評估,采用IoU 度量來確定證據是否充分,對于單個問題樣本的評估分數如下:

其中:Bgt表示答案邊界框;Bdet表示預測邊界框;θ設置為0.5;sl為式(2)中的s(·);gt 為真實答案;ans 為模型預測答案。最后,對所有問題分數取平均值作為數據集準確率。

2.2 數據集對比

對上述數據集進行對比,主要包括數據集來源、數據集規模等,結果如表3 所示。

表3 數據集規模以及特點 Table 3 Datasets size and characteristics

3 未來研究展望

本文對文本視覺問答領域未來的研究方向進行展望,具體如下:

1)空間關系推理

自然場景中的文本和物體都存在著空間關系,如方位關系(上、下、左、右)、包含關系(里面與外面、相交)等,輸入的問題中也涉及空間關系,如“左邊的瓶子里裝了什么?”??臻g關系對于模型理解圖像有著很重要的作用,理解空間關系可以更準確地回答含有空間關系的問題。文獻[30,33,61]介紹了進行空間處理的模型,但是它們都具有局限性,如空間關系不夠細粒度、未使用注意力機制引導關注指定空間關系等。因此,如何有效地處理空間關系以提升模型性能,是一個值得研究的方向。

2)模型的安全性問題

在計算機視覺領域,模型的安全性問題早已是一個重要的研究課題。例如,通過篡改輸入的圖片,可以讓模型輸出錯誤的預測結果,這在一些安全要求較高的應用領域(如無人駕駛場景)將會造成很嚴重的后果。文獻[85-87]介紹了針對圖像的對抗性攻擊和防御方法,文獻[88]研究了針對場景文本識別的對抗性攻擊和防御方法。目前文本視覺問答領域并沒有研究對抗性攻擊和防御方法,因此,模型的安全性問題值得研究。

3)端到端的文本視覺問答

目前文本視覺問答任務主要分為3 步,即特征提取、多模態特征融合、答案預測。特征提取一般都依賴于外部訓練好的特征提取器,它們的性能會直接影響文本視覺問答模型的性能。此外,外部特征提取器并不是通過文本視覺問答任務而訓練的,在運用到文本視覺問答任務中時,提取的特征會有偏差。如何將圖像檢測模塊以及文本識別模塊納入模型中以進行端到端的訓練,是一個值得研究的課題。

4)預訓練模型

現有模型的性能與數據集緊密關聯,模型需要較大的數據集才能獲得較高的性能。然而,獲取大數據集需要較高的成本,但是無標注的數據集資源豐富。模型預訓練方法可以首先在預訓練階段利用無標注數據集學習特征之間的關聯,重建特征之間的關系,然后在微調階段使用小規模標注數據集進行訓練。模型預訓練方法解決了標注數據集規模小的問題,并且能達到較好的性能。目前在文本視覺問答領域有了一些預訓練方法[35-37],但是模型性能還有很大的提升空間。在文本視覺問答中使用預訓練方法進一步提升模型性能,也是值得研究的方向。

5)引入外部知識的方法

文本視覺問答任務中一些問題僅僅通過圖像是不能正確回答的,需要借助外部知識才能夠準確回答。在視覺問答任務中,已有工作通過引入外部知識進行輔助推理,但是它們的知識數據集圖像大多數不含文本,因此不適用于文本視覺問答任務。目前,在文本視覺問答領域只有極少的工作對引入外部知識進行了研究,因此,在文本視覺問答任務中引入外部知識進行輔助推理,可以作為未來的一個研究課題。

4 結束語

本文首先回顧文本視覺問答領域的最新進展,根據融合方法的不同對已有模型進行分類,并總結各個模型及其優缺點,分析主要方法在公開數據集中的表現;然后歸納文本視覺問答任務中的數據集,并給出不同數據集的評估指標;最后對下一步的研究方向進行了展望。在未來,文本視覺問答領域可以從預訓練方法、安全性加固、空間關系增強等方面開展研究。

猜你喜歡
特征文本圖像
改進的LapSRN遙感圖像超分辨重建
有趣的圖像詩
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
基于doc2vec和TF-IDF的相似文本識別
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
線性代數的應用特征
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合