一種消減多模態偏見的魯棒視覺問答方法

2024-01-30 03:02張豐碩李豫李向前徐金安陳鈺楓

北京大學學報（自然科學版） 2024年1期

關鍵詞：分支樣本方法

張豐碩李豫李向前徐金安陳鈺楓

北京大學學報(自然科學版) 第60卷第1期 2024年1月

Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 60, No. 1 (Jan. 2024)

10.13209/j.0479-8023.2023.072

2023–05–18;

2023–09–26

一種消減多模態偏見的魯棒視覺問答方法

張豐碩李豫李向前?徐金安陳鈺楓

北京交通大學計算機與信息技術學院, 北京 100044; ?通信作者, E-mail: xqli@bjtu.edu.cn

為了增強視覺問答模型的魯棒性, 提出一種偏見消減方法, 并在此基礎上探究語言與視覺信息對偏見的影響。進一步地, 構造兩個偏見學習分支來分別捕獲語言偏見以及語言和圖片共同導致的偏見, 利用偏見消減方法, 得到魯棒性更強的預測結果。最后, 依據標準視覺問答與偏見分支之間的預測概率差異, 對樣本進行動態賦權, 使模型針對不同偏見程度的樣本動態地調節學習程度。在 VQA-CP v2.0 等數據集上的實驗結果證明了所提方法的有效性, 緩解了偏見對模型的影響。

視覺問答; 數據集偏差; 語言偏見; 深度學習

視覺問答(visual question answering, VQA)[1]是一項結合計算機視覺與自然語言處理的多模態任務,其目標是根據圖片來回答問題。近年來, VQA 相關研究取得長足的進展?，F有的視覺問答任務常用評測數據集(如 VQA v2.0[2])中, 訓練集和測試集的分布是相近的, 當模型較好地擬合此類數據的訓練集時, 更容易表現出優越的測試性能。然而, 真實場景中的數據集往往呈現不均衡的類別分布, 且難以避免長尾分布問題。因此, 當訓練集與測試集存在較大的分布差異(甚至完全相反)時, 數據中的分布偏差常常使模型表現出較差的泛化能力。

常用的 VQA 數據集存在相同類別問題下答案分布不均衡的現象。例如, 在當前評測視覺問答任務的主流數據集 VQA v2.0 中, 以“How many”開頭的問題, 大約 70%的答案為“2”; 以“What sport”開頭的問題, 以“tennis”作為答案的約占 40%。因此, 模型在訓練期間往往只簡單地學習到問題與標準答案的表面相關性(配對關系), 從而在沒有結合圖片信息進行充分推理的情況下, 依據經驗得出有偏見的預測結果, 表現出較強的語言偏見。為了探索解決這一語言先驗性問題的途徑, 前人通過重新分割和組織原有 VQA 數據集的方式, 構建訓練集和測試集中相同問題類型下答案分布相反的數據集(如VQA-CP[3])。值得注意的是, 很多表現良好的 VQA模型在這類數據集上的性能大幅度下降。因此, 克服數據集分布不均衡導致的偏見問題至關重要。

針對上述問題, 有別于前人的工作[4–13], 本文嘗試直接將標準分支與偏見分支的概率輸出之差作為預測結果。首先, 構造兩個不同的偏見學習分支來分別捕捉語言偏見以及語言和圖片共同導致的偏見。一個分支通過對語言輸入進行特征提取來識別和理解文本中的偏見, 另一個分支基于注意力機制來分析并捕捉語言和圖片共同導致的偏見。進一步地, 在推理階段, 將基礎視覺問答模型的預測分值減去語言偏見模型的偏見分值, 得到的差值即為去偏后的預測概率, 最終取概率最大的預測標簽作為答案輸出。該方法通過消減捕捉到的偏見來降低模型對偏見的敏感性, 并生成更加無偏和準確的預測結果。最后, 根據標準視覺問答與偏見分支之間的預測概率差異, 對樣本進行動態賦權。不同的差異意味著樣本具有不同的偏見程度, 而賦予不同的權重, 可以調節模型對樣本的學習程度。這種動態賦權的方式可以使模型更加靈活和準確地應對不同程度的偏見樣本, 從而提高模型的整體性能。通過基于 VQA-CP v2.0 和 VQA v2.0 數據集的實驗, 證明本文方法具有比基線模型更高的效能。

1 相關研究

近幾年, 處理視覺問答任務偏見問題的相關研究可以分為兩大類: 數據增強方法[4–7]和非數據增強方法[8–13]。

1)數據增強的方法: 通過自動生成問題和圖像對來擴展訓練數據集, 以便平衡數據集存在的偏見。Teney 等[4]和Zhu等[5]通過從原有的數據集中構建不相關的問題–圖像對來生成額外的數據, 以此在不引入新樣本的方式下來平衡數據集。Chen 等[6]通過對圖像中的關鍵對象和問題中的關鍵目標進行掩蓋, 并分別對這些樣本分配不同的答案來生成反事實的訓練樣本, 從而大大提高模型的視覺可解釋性和問題敏感能力。Mutant 模型[7]從多個角度擴充訓練樣本, 包括去除圖像的關鍵對象、反轉圖像中關鍵對象的顏色、否定問題的表達以及遮蓋問題關鍵詞等。數據增強的方法雖然效果很顯著, 但新生成數據的質量往往難以保證, 同時還可能引入新的偏見。

2)非數據增強的方法主要分為兩類。一類是引入先驗知識來增強視覺靈敏度: HINT 模型[9]引入人類注意力來加強模型對圖像的敏感度; 在 HINT模型的基礎上, SCR 模型[10]提出自我批評的方法, 懲罰不正確答案對重要區域的敏感度, 取得更好的去偏效果。但是, 這類方法效果有限, 并且需要額外的人工標注, 成本較高。另一類常見的策略是引入一個輔助的單模態分支模型來檢測偏見: Ramak-rishnan 等[11]引入僅問題分支, 并使用對抗正則化方法減少數據集偏見對模型的影響; Cadene 等[12]改善了對抗的做法, 提出融合僅問題分支來改變模型的預測結果, 從而降低有偏樣本的重要性; Clark 等[13]使用問題類型和答案訓練一個捕獲偏見的僅問題分支, 再將僅問題分支的預測值嵌入基本模型的預測值中進行集成訓練, 使模型的性能有較高的突破; Wen 等[8]注意到視覺模態的偏見效應, 構建僅問題和僅圖像兩個分支來同時消除兩種偏見。

與上述方法不同的是, 本文的方法引入的輔助分支可以直接作用于任意視覺問答基礎模型, 適用范圍更廣; 同時, 我們還依據標準視覺問答分支和偏見分支之間的差異, 構造動態調節機制來作用于損失函數, 從而進一步優化去偏效能。

2 本文模型的去偏策略

本研究中, 我們嘗試直接將標準分支與偏見分支的概率輸出之差作為預測結果。在這種方式下, 針對語言偏見問題, 在模型的訓練階段, 我們沿襲前人的方法, 訓練一個語言模態的問答模型來捕獲語言先驗知識; 在推理階段, 我們將基礎視覺問答模型的預測分值(VQA)減去語言偏見模型的偏見分值(QA), 得到的差值即為去偏后的預測概率, 最終取概率最大的預測標簽作為答案輸出。為了驗證該方法的有效性, 我們選用經典的視覺問答模型Updn[14]作為基礎模型, 并在數據集 VQA-CP v2.0 上進行初步實驗。表 1 列出的實驗結果表明, 該方法可以顯著地提高視覺問答的準確率。然而, 只考慮語言偏差而忽略視覺信息帶來的影響, 不能充分地去除偏見, 視覺信息導致的偏見效應[8]仍然未被充分探究。從圖 1 的示例 1～3 中可以觀察到, VQA 模型因受圖片中模型最感興趣的區域影響而預測出錯誤的答案“Water”。

表1 直接消減方法在VQA-CP v2.0數據集上的去偏效果

為了進一步探索上述問題, 受前人捕獲語言偏見的工作[11–13]啟發, 我們首先觀測僅使用圖片來回答問題(VA 分支)的效果。如圖 1 所示, 我們發現由VA 分支輸出的概率分布中, 分值最高的答案始終為 Yes 或 No。主要原因在于, 通過圖片信息直接預測答案的過程并不能使模型學到有效的知識。具體地說, 在 VQA-CP v2.0 數據集中, 一張圖片往往對應多個自然語言問答實例, 因此在缺失問題引導的情況下, 模型僅僅捕捉到訓練集中圖片與答案的映射規律, 并將對應頻率最高的答案(即 yes 或 no)作為最終的預測。因此, 單純使用圖片來捕獲視覺偏見的做法仍然存在問題。我們繼續對樣例進行分析, 發現錯誤答案“Water”大多出現在“What”問題類型的樣例中, 如圖 1 中示例 1～3 所示。所以, 我們推測部分問題信息可能會與圖片中的某些區域結合在一起, 與答案標簽形成配對關系, 從而被模型在訓練階段利用, 即存在一種文本和視覺信息共同導致的混合偏見。

針對上述問題, 本文提出兩個偏見檢測分支模型, 即語言偏見檢測分支和混合偏見檢測分支, 分別捕獲兩種偏見, 并且將它們融入我們提出的直接消減策略當中, 得到去偏結果?？紤]到單純使用圖片信息不能捕獲視覺偏見, 我們為圖片提供部分問題線索, 并且使用多頭自注意力機制使它們充分交互, 從而得到融合視覺與文本線索信息的混合偏見特征。同時, 我們還探究不同偏見分支對不同類型問題的影響, 并設計基于問題類型的分段注意力機制來調節各類型問題的去偏過程。最后, 我們依據標準分支和偏見分支預測的相似性, 設計樣本重賦權策略, 通過動態地調節損失函數, 進一步優化去偏過程。

預測輸出中粗體字表示模型預測的概率最大的答案, 下同

3 模型設計

3.1 本文模型的整體結構

如圖 2 所示, 本文模型的整體結構包括 3 個部分: 1)基礎視覺問答模型, 例如Updn[14]; 2)偏見檢測模型, 用于捕獲語言偏見和混合偏見; 3)動態調節模塊, 用于依據標準分支和偏見分支的相似性, 動態地調節損失函數的大小。

3.2 標準視覺問答基本模型

目前, 可以將視覺問答視為多標簽分類任務。具體地說, 給定數據集, 其中v,q和分別代表第個樣本(樣本總數為)中的圖片、問題和答案, 任務的目標是根據自然語言問題和對應的視覺信息預測出正確的答案。通常, 視覺問答模型的預測概率分布可以建模為

3.3 偏見檢測模型

3.3.1語言偏見檢測模型

一般將語言偏見視為僅僅根據問題文本得到的答案分布, 通常用如下方式得到:

其中,q表示映射函數, 將問題特征直接映射到答案空間。

3.3.2混合偏見檢測模型

為了捕獲圖片與文本共同導致的偏見, 我們設計一種混合偏見檢測模型(如圖 3 所示), 分別從底層特征級別和注意力結構級別兩方面對圖片提供問題線索的引導。

在前期處理階段, 首先將訓練集中的問題文本輸入預訓練模型BERT[15]中:

其中,表示問句單詞集合{1,2, …,w}經過 BERT編碼后的向量。之后, 在特征級別上使用已標記好的問題類型的訓練數據集來訓練意圖分類器。這里, 將問題的類型視為問題意圖。在分類器的實現過程中, 我們從 BERT 編碼后的文本特征中選擇[CLS]標記對應的特征輸送到多層感知機以及 Soft-max 歸一化層中, 取概率分值最高的問題類型對應的下角標作為問題意圖標簽。計算方法如下:

其中,cls表示中[CLS]標記對應的向量, idx 表示預測概率值最高的意圖對應的下角標索引,intent代表預測出的問題意圖標簽。在視覺問答訓練過程中, 我們先在特征表示層面將意圖標簽投射到向量空間, 并與圖片區域特征進行加和, 后接多頭自注意力機制, 使它們充分地交互, 從而得到混合意圖的視覺特征序列:

其中,enc表示圖片區域特征向量,表示當前文具對應的問題意圖向量, MHSA(·)表示多頭自注意力機制[16],intent表示混合意圖的視覺特征序列。

除在特征層面引入意圖線索外, 與 Updn 類似, 我們在注意力機制層面直接利用問句信息來擇取問題最有可能關注到的視覺區域。具體地說, 將式(1)中編碼后的問題向量enc進行平均池化, 得到整體問題文本特征:

最后, 引入注意力機制來對混合文本線索的視覺特征進行聚合。值得注意的是, 考慮到不同的問題受到的偏見影響存在差異, 我們設計分段注意力權重的計算方法。具體地說, 我們依據答案類型的不同, 采取不同的查詢向量來計算權重。對于推理難度較大的 Num 類型問題, 將完整的問題文本特征作為查詢向量; 對于非 Num 類型的問題, 考慮到給予太多的文本線索會使偏見模型學習到正確的知識, 因此訓練一個隨機向量作為查詢向量來計算混合意圖的視覺特征權重, 加權求和后, 得到最終的混合偏見特征。這里的隨機向量近似地代表用戶對圖片區域關注的隨機傾向性。式(7)和(8)分別表示注意力權重的計算和混合偏見特征mix的獲取操作。

LVQA 和LBias 分別表示基礎視覺問答模型和偏見檢測分支模塊的損失函數; Q*表示從問句中提取的問題類型, 下同

圖3 混合偏見檢測模型示意圖

(8)

其中,為初始化的隨機向量,為當前問題的答案類型,為隱藏層的維度,,,和為訓練權重,為偏置量。

3.4 動態調節模塊

為了進一步增強去偏效果, 本文設計一種樣本損失動態調節機制。具體地說, 我們依據標準視覺問答分支與偏見預測概率之間的分布差異, 計算出一個衡量樣本偏見程度的權重因子, 用于調整損失函數的大小, 從而在模型訓練過程中削弱對偏見樣本的學習強度, 同時關注無偏樣本的學習。

然后, 為了衡量樣本的偏見程度, 計算標準分支輸出概率s與的余弦相似度:

由于s和的取值都大于等于零, 故的取值在 0～1 之間。由余弦相似性可知,值越大, 標準分支和偏見檢測分支的輸出概率越接近, 樣本存在偏見的可能性越大。

最后, 對于極有可能存在偏見的樣本(余弦相似度大于當前問題對應答案類型為時的臨界值), 賦予較小的權重系數來削弱偏見的影響; 對于幾乎不存在偏見的樣本(余弦相似度小于臨界值), 通過增大權重系數來增加模型對這類樣本的關注度。權重系數ω的計算公式如下:

其中,是超參數, 表示人工放縮的權重。

3.5 訓練與推理

3.5.1模型訓練

在模型訓練階段, 我們通過二元交叉熵損失函數, 分別優化基礎視覺問答模型和偏見檢測分支模塊, 計算公式如下:

其中,是超參數, 用于平衡基礎 VQA 模型和偏見檢測模型;是偏見分支的數目;是答案標簽; bce(·)是二元交叉熵損失函數;s表示基礎 VQA 模型輸出的概率;表示第個偏見檢測模型輸出的概率。

3.5.2模型推理

在測試階段, 某一答案標簽的概率分值表示為

其中,是答案類型, 共有 3 種?？紤]到不同偏見分支對各個類型問題的影響可能存在差異, 我們設置權重來調節去偏程度, 并且。

4 實驗與結果

4.1 實驗設置

4.1.1數據集

針對視覺問答中的偏見問題, 目前常用 VQA-CP v2.0 數據集[3]來評估模型的性能, 在 VQA v2.0數據集[2]上測試模型是否過度糾偏。VQA v2.0 訓練集包含 443757 個圖像問題對, 驗證集包含 214354個圖像問題對, 測試集包含447793 個圖像問題對。VQA-CP v2.0 數據集是對VQA v2.0 數據進行重新劃分后得到的, 在同一類型的問題下, 該數據集的訓練集和測試集答案分布差異較大。VQA-CP v2.0數據集的訓練集包含 438183 個圖像問題對, 不包含驗證集, 測試集包含 219928 個圖像問題對。在兩個數據集中, 樣本的問題類型分為 3 類: Yes/No, Num和 Other。

4.1.2評價方法

評價句子的正確性時, 需要考慮句法和句子語義的正確性。為了簡化問題, 視覺問答的大多數數據集將生成的答案限制為單詞或短語, 長度為 1～3個單詞。當前通用的評估方法如式(14)[1]所示:

其中, Acc(ans)表示某樣本下某個答案的準確率, #humans provided ans 表示人工給出該答案的次數。數據集會對每個問題收集 10 個人工答案, 如果某個答案被人工標注 3 次或以上, 則得分為 1; 如果某個答案沒有被標注, 則得分為 0，即錯誤答案。在評估時, 需要將生成的答案與 10 個人工答案進行比較, 從而得到準確率。

4.1.3測試基準模型

我們在 Updn[14]和 LXMERT[17]兩個視覺問答基礎模型上測試本文提出的方法。Updn 模型是目前主流的視覺問答模型, 它使用一種自上而下和自下向上的注意力機制[16]; LXMERT 是一個基于 Trans-former[16]架構的多模態預訓練模型。我們按照是否在 LXMERT 框架下加載預訓練權重, 分兩組進行實驗。

4.1.4參數設置與實驗環境

在 Updn 模型的訓練過程中, 設置初始學習率為 5×10?4, 訓練 batch 大小為 256, 共迭代 25 輪; 在LXMERT 模型的訓練過程中, 設定初始學習率為5×10?5, 訓練 batch 大小為 32, 共迭代 10 輪。我們使用 Pytorch 1.40 框架來實現本文提出的模型, 所有的計算均在 NVIDIA Tesla V100 GPUs 上進行。

4.2 實驗結果及對比

表 2 對比本文方法和近年來提出的其他方法在VQA-CP v2.0 測試集以及 VQA v2.0 驗證集上的性能。公平起見, 我們主要比較非數據增強的方法, 包括 SCR[10], AttAlign[9], HINT[9], AReg[11], DLR[18], GRL[19], RUBi[12], LM[13], LMH[13], Unshuffling[20]和Re-scaling[21]。其中, Unshuffling 方法通過劃分數據集, 并為每個子集設置不同訓練環境的方式來提高模型的泛化能力; Re-scaling 方法則根據訓練數據的統計特征, 對樣本進行重賦權來消減偏見。評測實驗結果表明, 本文方法優于其他基線方法, 并可得到以下結論。

1)與去偏后的模型相比, 未經過去偏處理的視覺問答方法(如 SAN[22], GVQA[3]和 Updn)在 VQA-CP v2.0 數據集上的效果表現較差。本文提出的去偏策略在 Updn 以及兩組 LXMERT 模型上均具有較明顯的去偏效果。具體地說, 與基礎的 Updn 模型相比, 本文方法的準確率提升約 15.45%; 與不加載預訓練權重的 LXMERT 相比, 提升 15.76％; 與加載預訓練權重的 LXMERT 相比, 提升 15.42％。從整體上看, 上述結果證明了本文方法在去偏任務中具有明顯的有效性。

2)在 VQA-CP v2.0 有偏數據集上, 本文中提出的去偏策略在單個指標方面均取得最好的效果。與同樣引入問答分支模型的 AReg(+14.31％)、GRL(+13.15％)、LM(+6.70％)、LMH(+3.47％)和 RUBi(+11.25％)相比, 本文方法簡單, 效果更顯著。從與其他基線模型的對比來看, 一方面, 再次體現出本文方法顯著的有效性; 另一方面, 說明本文去偏策略盡可能地針對各個問題類型, 捕獲了更充分的偏見信息。

表2 與已有視覺問答去偏模型的性能比較

注: *實驗結果取自本研究復現的模型, 其他用于比較的實驗結果都取自原文獻; 粗體數字表示最優結果, 下同。

3)在 VQA v2.0 數據集上, 與 Updn 基礎模型相比, 大部分已有去偏方法的效果均有所下降, 說明當前的去偏模型存在一定的矯枉過正現象。本文提出的策略在 VQA v2.0 數據集上的測試準確率具有明顯的競爭力, 在一定程度上證實本文方法引起的矯枉過正現象相對較弱, 模型的魯棒性更強。

4.3 消融實驗結果

我們通過消融實驗驗證模型各部分的有效性, 結果如表 3 所示。所有模型均在與 4.1.4 節中相同的設置下訓練。消融實驗結果表明, 融合偏見檢測分支與動態調節模塊都具有明顯的效果, 可以得到以下結論。

1)對于 VQA-CP v2.0 數據, 使用混合偏見檢測模型在 Num 類型上的效果提升較為明顯(+2.00％), 推測其原因可能是 Num 類型的問題更容易受到視覺和語言兩種模態信息的影響。此外, 使用語言偏見檢測模型在 VQA-CP v2.0 上對 Yes/No 類型問題的作用十分顯著(+35.78％), 說明 Yes/No 類型問題的偏見主要由語言信息引起。

2)僅僅將兩類偏見檢測分支疊加使用時, 在VQA-CP v2.0 上取得比使用單個偏見分支更高的整體效果, 說明它們共同作用, 捕獲到更充分的偏見特征, 同時也結合了兩類偏見分支各自的優勢。此外, 對 VQA v2.0 數據而言, 同時融合兩種分支能夠緩解矯枉過正的現象(?0.98％)。

3)單獨使用動態調節機制時, 在 VQA-CP v2.0數據集上也取得一定的去偏效果(+1.80％), 在 VQA v2.0 數據集上比基礎模型 Updn 有 0.06％的提升, 說明在去除偏見的同時, 動態調節機制矯枉過正的現象并不明顯。

表3 消融實驗結果

說明: ?Gap表示去偏模型與基礎模型的準確率差值。

表4 分段注意力機制的有效性

說明: E表示使用問句向量作為查詢向量, R表示使用隨機初始化的向量作為查詢向量。

4)將兩類偏見檢測分支與動態調節模塊結合時, 在 VQA-CP v2.0 數據集上的整體去偏效果以及單個問題類型上的去偏效果達到最佳, 證明了本文提出的方法在視覺問答去除偏見任務中的有效性。

4.4 分段注意力機制有效性分析

為了直觀地驗證問句引導的分段注意力機制的有效性, 針對在不同問題類型的樣本中混合偏見模塊是否使用分段注意力機制這一問題, 我們根據是否采用動態調節機制, 在 VQA-CP v2.0 數據集上分兩組進行實驗, 結果如表 4 所示。實驗結果表明, 當單獨針對 Num 類型的樣本使用問句特征作為查詢向量, 并使用隨機特征表示作用于非 Num 類型問題的方式時, 在加入和不加入動態調節兩種情況下均取得最明顯的提升。給予 Other 類型問題太多的文本線索不利于模型消除 Other 類型樣本的偏見, 推測是由于過多的文本線索與視覺信息結合時, 會直接得到 Other 類型問題的正確答案。另外, 我們發現當為 Num 類型問題分配問句特征作為查詢向量時, 會對 Yes/No 類型問題起到更明顯的提升作用, 在此情況下, 使用隨機特征向量來計算 Yes/No類型問題的注意力權重, 促進了模型對Num類型和Other 類型問題的去偏能力。綜上所述, 本文提出的分段注意力機制考慮到文本線索信息對不同類型問題的作用差異, 能夠有效地提升去偏效果。

圖4 在VQA-CP v2數據集上的去偏效果

4.5 樣例分析

為了更好地展示結果, 擇取在 VQA-CP v2.數據集上以 Updn 作為基礎模型的實驗結果中的一些例子來進行深入的分析, 從而進一步證明我們方法的有效性。

圖4中樣例1和2的標準分支與混合偏見分支的預測輸出分別為 Train 和 Cows, 說明模型受到視覺偏見影響的可能性更大。在此前提下, 僅使用動態調節機制可以使模型直接預測出正確答案(Train station 和 Grass), 同時在后續的直接消減策略下, 最終的答案也能保持正確性, 說明本文方法具備較強的克服視覺偏見能力。此外, 圖 4 中樣例 3～5 表明模型在動態調節機制和直接消減策略的共同作用下, 緩解了 Num 和 Yes/No 類型問題中存在的偏見問題, 更加充分地說明本文提出的去偏策略可以增強視覺問答模型的魯棒性?？傮w而言, 本文方法在各個問題類型上都可以緩解偏見對模型的影響。

5 結論

本文提出一種直接消減的去偏策略, 將基礎視覺問答模型的輸出減去偏見檢測模型的輸出作為最終的去偏結果。在之前已經提出語言偏見和視覺偏見的基礎上, 本研究發現一種新的混合偏見檢測分支——圖片和文本共同作用導致的偏見, 并設計意圖分類器來提取問題句子的意圖, 引入分段注意力機制來將視覺特征與意圖特征有效地結合, 從而獲取混合偏見。最后, 依據標準視覺問答分支與偏見分支之間的差異性, 構造動態調節模塊來控制樣本的學習程度。實驗結果表明, 本文提出的方法提高了現有 VQA 模型的推理分析能力, 減少了偏見對模型的誤導性。

[1] Antol S, Agrawal A, Lu J S, et al. VQA: visual question answering // Proceedings of the IEEE International Conference on Computer Vision. Santiago, 2015: 2425 –2433

[2] Goyal Y, Khot T, Summers-Stay D, et al. Making the V in VQA matter: elevating the role of image under-standing in visual question answering // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, 2017: 6904–6913

[3] Agrawal A, Batra D, Parikh D, et al. Don’t just assume, look and answer: overcoming priors for visual question answering // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 4971–4980

[4] Teney D, Abbasnejad E, Kafle K, et al. On the value of out-of-distribution testing: an example of goodhart’s law. Advances in Neural Information Processing Sys-tems, 2020, 33: 407–417

[5] Zhu X, Mao Z, Liu C, et al. Overcoming language priors with self-supervised learning for visual question answering [EB/OL]. (2020–12–17) [2023–04–10]. https://doi.org/10.48550/arXiv.2012.11528

[6] Chen L, Yan X, Xiao J, et al. Counterfactual samples synthesizing for robust visual question answering // Proceedings of the IEEE/CVF Conference on Com-puter Vision and Pattern Recognition. Seattle, 2020: 10800–10809

[7] Gokhale T, Banerjee P, Baral C, et al. Mutant: a training paradigm for out-of-distribution generaliza-tion in visual question answering [EB/OL]. (2020–10–16) [2023–03–22]. https://doi.org/10.48550/arXiv.2009. 08566

[8] Wen Z, Xu G, Tan M, et al. Debiased visual ques- tion answering from feature and sample perspectives. Advances in Neural Information Processing Systems, 2021, 34: 3784–3796

[9] Selvaraju R R, Lee S, Shen Y, et al. Taking a hint: leveraging explanations to make vision and language models more grounded // Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul, 2019: 2591–2600

[10] Wu J, Mooney R. Self-critical reasoning for robust visual question answering. Advances in Neural Infor-mation Processing Systems, 2019, 32: 8601–8611

[11] Ramakrishnan S, Agrawal A, Lee S. Overcoming lan-guage priors in visual question answering with adver-sarial regularization. Advances in Neural Information Processing Systems, 2018, 31: 1541–1511

[12] Cadene R, Dancette C, Cord M, et al. Rubi: reducing unimodal biases for visual question answering. Adva-nces in Neural Information Processing Systems, 2019, 32: 839–850

[13] Clark C, Yatskar M, Zettlemoyer L. Don’t take the easy way out: ensemble based methods for avoiding known dataset biases [EB/OL]. (2019–09–09) [2023–04–20]. https://doi.org/10.18653/v1/D19-1418

[14] Anderson P, He X, Buehler C, et al. Bottom-up and top-down attention for image captioning and visual ques-tion answering // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 6077–6086

[15] Devlin J, Chang M W, Lee K, et al. Bert: pre-training of deep bidirectional transformers for language under-standing [EB/OL]. (2018–10–11) [2023–04–12]. https: //doi.org/10.48550/arXiv.1810.04805

[16] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Advances in Neural Information Processing Systems, 2017, 30: 5998–6008

[17] Tan H, Bansal M. LXMERT: Learning cross-modality encoder representations from transformers [EB/OL]. (2019–12–03) [2023–04–20]. https://doi.org/10.48550/ arXiv.1908.07490

[18] Jing C, Wu Y, Zhang X, et al. Overcoming language priors in VQA via decomposed linguistic representations // Proceedings of the AAAI Conference on Artificial Intelligence. New York, 2020, 34: 11181–11188

[19] Grand G, Belinkov Y. Adversarial regularization for visual question answering: strengths, shortcomings, and side effects [EB/OL]. (2019–06–20) [2023–04–11]. https://doi.org/10.48550/arXiv.1906.08430

[20] Teney D, Abbasnejad E, van den Hengel A. Unshuff-ling data for improved generalization in visual ques-tion answering // Proceedings of the IEEE/CVF Inter-national Conference on Computer Vision. Montreal, 2021: 1417–1427

[21] Guo Y, Nie L, Cheng Z, et al. Loss re-scaling VQA: revisiting the language prior problem from a class-imbalance view. IEEE Transactions on Image Proces-sing, 2021, 31: 227–238

[22] Yang Z, He X, Gao J, et al. Stacked attention net- works for image question answering // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, 2016: 21–29

Reducing Multi-model Biases for Robust Visual Question Answering

ZHANG Fengshuo, LI Yu, LI Xiangqian?, XU Jin’an, CHEN Yufeng

School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044; ? Corresponding author, E-mail: xqli@bjtu.edu.cn

In order to enhance the robustness of the visual question answering model, a bias reduction method is proposed. Based on this, the influence of language and visual information on bias effect is explored. Furthermore, two bias learning branches are constructed to capture the language bias, and the bias caused by both language and images. Then, more robust prediction results are obtained by using the bias reduction method. Finally, based on the difference in prediction probabilities between standard visual question answering and bias branches, samples are dynamically weighted, allowing the model to adjust learning levels for samples with different levels of bias. Experiments on VQA-CP v2.0 and other data sets demonstrate the effectiveness of the proposed method and alleviate the influence of bias on the model.

visual question answering; dataset bias; language bias; deep learning