?

基于多模塊深度神經網絡的陶瓷圖像視覺問答方法

2023-05-24 08:15張岱松盛文婷
南京理工大學學報 2023年2期
關鍵詞:神經網絡模塊圖像

張岱松,盛文婷,谷 崢,劉 靜

(1.唐山學院 文法系 河北 唐山 063000;2.新疆農業大學 網絡技術與信息中心,新疆 烏魯木齊 830091;3.新疆工程學院 控制工程學院 新疆 烏魯木齊 310001;4.喀什大學 計算機科學與技術學院 新疆 喀什 844000)

視覺問答[1](Visual question &answer,VQA)是關于圖像問題的回答,也可稱為視覺圖靈測試[2],即給出一幅圖像或一個組合問題,需要模型同時根據問題的語義和圖像的內容作推理并給出正確答案[3]。這類問題要求對視覺場景和自然語言這兩方面的較深刻理解,在新興的人工智能領域尤為重要,是值得關注和研究的領域。VQA可結合圖像捕捉、視覺問題生成和視覺對話技術,創建能夠在現實中執行各種任務并通過語言與人類溝通的智能體,并應用到圖像智能分析[4]、視力殘障人士輔助、無標簽圖像檢索[5]等各種領域。

目前,已有一些研究成果,如文獻[6]在多模態視覺問答數據集上分析了多個VQA模型的性能,這些模型都通過基于注意力機制的神經網絡,學習到接近于人類認知的神經注意力策略。比較結果表明,VQA模型性能不但與圖像模態相關,且會受到文本注意力的顯著影響。VQA問題中的一個重要組成部分在于從圖像中尋找問題的根據,文獻[7]已經就這類問題進行了論證,并通過評估視覺問題與圖像證據之間的關系,提出不但要學習數據中的巧合關系,還需要捕捉圖像內容與文本概念之間的深度關聯。文獻[8]提出了結合自下而上的注意力機制的VQA模型,首先利用預訓練目標檢測網絡提取圖像目標和顯著區域,其后將其與相關問題表征輸入到一個記憶網絡以生成最終信息表征,最后融合信息表征和問題表征,推導出正確答案。文獻[9]提出了結合卷積神經網絡(Convolutional neural network,CNN)和長短期記憶單元(Long short-term memory,LSTM)的VQA模型,利用張量分解和回歸策略顯著加快了VQA任務的處理速度,但會造成準確度的下降。為充分利用深度模型的視覺內容表征能力與自然語言處理的語義分析能力,文獻[10]提出基于圖像捕捉的VQA模型,將圖像捕捉模型提取的特征與注意力視覺特征相融合,由此圖像捕捉任務中學習知識并遷移到VQA任務中,改善生成答案的準確度。

VQA問題的重點是探索傳統語義分析中集合論方法[11]與計算機視圖屬性之間的天然相似性。為此,本文提出了一種基于多模塊結構的神經網絡進行VQA視覺問答,這個方法能夠使用聯合訓練回答出陶瓷相關圖像的自然語言問題。本文方法的主要創新之處是將不同種類的、聯合訓練的神經模塊組成深度神經網絡,不同種類的信息能夠從某一模塊傳遞到下一個模塊,并對陶瓷產品的視覺回答問題進行了試驗。試驗結果表明所提方法可以較好地處理視覺問答問題。

1 VQA屬性-成分模塊空間

為了與可組合的視覺元素最小集保持一致,本文組合成了任務所需的所有配置。這些配置模塊在三種基本數據類型中進行操作:圖像、非規范性屬性及標簽。模塊的名字是固定寬度字體的類型集,是TYPE格式的[INSTANCE](ARG1,…),TYPE是一種高級模塊類型(屬性,分類等)。INSTANCE為模型中的特殊案例。

(1)尋找模塊。find[c]用權值矢量卷積[12](每個c都對應于不同的權重),輸入圖像中的所有位置,來生成熱圖或非標準化的屬性。find[red]會定位紅色的物體,如圖1(a)所示。模塊find[red]的輸出為一個數字矩陣。

圖1 模塊示意圖

(2)轉化模塊。transform[c]是一種有著修正線性單元[13](ReLU)的多層感知器,能夠完全連接屬性之間的映射,如圖1(b)所示。同樣,每個矢量c的影射權值均不同。因此,transform[about]表示屬性轉換向上的最大激活區域,而transform[no]則是將屬性從活躍區域移走。在本文的試驗中,第一個全連接層(Fully connected layer,FC layer)會生成大小為32的矢量,第二個全連接層與輸入的大小一致。

(3)聯合模塊。combine[c]將兩種屬性融合成一個屬性。例如,combine[and]表示只在兩種輸入都活躍的區域,而combine[or]表示在第一個輸入活躍第二個輸入不活躍的區域,如圖1(c)所示。一般,聯合模塊可以將其看作是非線性后的卷積。

(4)描述模塊。describe[c]取屬性和輸入圖像共同作為輸入,并將兩者映射為標簽空間上的分布。具體而言,首先計算由屬性值權重得到的圖像特征均值,然后將圖像特征矢量傳遞到全連接層(FC)中。如圖1(d)所示,describe[color]會返回該區域指向的顏色。

(5)測量模塊。measure[c]能夠獨立獲得屬性值,并將其映射到標簽分布中。由于模塊之間的屬性是非規范化的,所有測量可用于評估待檢測物體是否存在,或用于計算物體集的數量,如圖1(e)所示。

2 VQA模型

本文VQA的基本流程圖如圖2所示,圖的流向分為兩條,一條為自然語言,一條是圖像,以上述模塊化屬性-成分網絡為基礎,使用自然語言分析器,來動態地表示由可重復使用的模塊組成的深度網絡。并添加了用戶響應機制。為了簡化,本文將數據看作是一個三元組(w,x,y)。其中,w是自然語言問題;x是圖像;y是回答。模型由一組模塊{m}完全指定,每一個模塊都有關聯參數θm,以及從線映射到網絡的網絡布局預測P。給定如上所示的(w,x),模型基于P(w)實例化網絡,將x(或w)作為輸入值,就能獲得標記的分布(為完成VQA任務,本文需要輸出模塊來生成答案表示)。這樣,模型就將預測分布編碼為p(y|w,x;θ)。而用戶響應機制進一步優化了VQA,使得問題回答更加準確魯棒。

圖2 本文VQA的基本流程圖

2.1 從字符串到網絡

本文首先使用斯坦福句法分析器[14]分析每個問題,以獲得通用的句法表。句法分析能夠表示出句子各部分之間的語法關系(如物體和屬性之間的關系,事件與參與者之間的關系),并可提供與句子表面結構不同的抽象概念。句法分析器還進行了基本的詞干提取,這可以減少模塊的分析。然后,將句法集過濾到連接問題的連接函數(具體取決于任務,以及特殊案例的數量)。從而得到一個能夠表達句子基本意思的符號形式。在這個過程中,還要將一些功能詞,如限定詞和情態動詞拋開。這些表示與組合邏輯有些相似,其中,每個葉子節點都是輸入函數,根節點表示計算的最終值。為了對語句歧義進行消除,本文提出一種利用不同含義問題語句的方法,生成的語句根據圖像內容和用戶反饋機制進行評價。通過置信度給出最終輸出。本文對問題創建的句子模式有5個,其模式判定如下

B1={Qi|are∈Qi∧Qi?Q}

(1)

B2={Qi|or∈Qi∧Qi?Q}

(2)

B3={Qi|and∈Qi∧Qi?Q}

(3)

B4={Qi|as∈Qi∧Qi?Q}

(4)

B5={Qi|have∈Qi∧Qi?Q}

(5)

式中:Q表示總問題模式,第i個模式用Bi表示。上述模式的語句分支判斷規則為

f(B1,B2,B3,B4,B5,Q)=

(6)

式中:整數r、m、n滿足至少兩個數不為0。這些整數的組合使得f(B1,B2,B3,B4,B5,Q)大于0。引起語句分支歧義的組合如下

分支1:{B5∪B4},…have…as…形式;

分支2:,…are…or…形式;

分支3:{B1∪B2∪B1},…are…or…are…形式;

分支4:{B1∪B3},…are…and…形式;

分支5:{B1∪B1∪B2},…are…are…or…形式;

分支6:{B1∪B4},…are…as…形式。

上述有代表性的句法表示確定了預測網絡的結構,但是沒有確認組成的模塊。模塊的最終任務完全由結構確定,所有葉子節點變成尋找模塊,所有的內部節點都根據其數量變成轉換模塊或聯合模塊,根節點根據其領域變成描述模塊或測量模塊。大多數情況下,這些網絡結構是不同的,但是參數都相互關聯,網絡結構數據如表1所示,其中“#案例”表示特定模塊案例數量,“#分布”為不同組合結構數量,“#最大深度”為所有分布的最大深度,“最大尺寸”為網絡模塊最大數量。

表1 本文神經模塊網絡的結構數據

2.2 自然語言的回答問題

本文將神經模塊網絡的輸出和LSTM編碼器結合起來,這樣做源于以下兩個原因。

(1)由于分析器中發生的問題都進行了相對激進的簡化,所有語法提示(即:不會對問題的語義產生太大的影響但是可能會影響答案)都被省去。

(2)因為這樣可以得出語義規律,這問題編碼器也使得本文能夠對這類問題的影響進行建模。因此,所有試驗都使用了標準單層LSTM[15],其包含了1 000個隱藏單元。為了計算答案,通過完全連接層去掉了LSTM的最后隱藏部分,將其加入神經網絡模塊根節點生成的表示中。應用ReLU非線性,另一個全連接層和softmax層來獲取答案的分布。與神經網絡方法類似,本文將答案預測看作是一個純粹的分類問題[16],即:模型選出訓練過程觀測到的答案集,并將每個答案看作是不同的類。這樣,在最終預測層中就不會有相同的參數了,如“左邊”和“左”。

2.3 損失函數

為了度量分布的差異,本文使用相對熵函數(又稱KL散度,Kullback-Leibler divergence)作為損失函數,訓練過程中的分類器逐步擬合真實答案,損失函數的定義如下

(7)

式中:xi為模型輸出第i個類別的預測概率,yi第i個類別的真實概率。S為訓練集中的問題-答案對的數量。

3 試驗與分析

本文的訓練目的就是找到能夠最大化數據可能性的find模塊。本文將每個網絡的最后一個模塊設計成標簽分布的輸出,這樣,每個組合好的網絡也能表示可能性分布。由于動態網絡結構用于回答問題,一些權值可能比其他權值更新快。因此,有著自適應權值學習率的學習算法遠遠優于簡單的梯度下降。為此,本文在所有試驗中使用了Adafactor算法[17],并沿用了標準參數設置。

3.1 陶瓷制品的組合性VQA

由于本文的目標是研究深度語義組合性的模型,因此創建了一個陶瓷圖像的合成數據集。這數據集在制備中考慮了很多語義組合方式,還包含了與色彩和形狀的排列相關的復雜問題(如圖3)。本文方法在VQA任務中的案例輸出如圖3所示。問題包含了2~4種屬性,目標類型和關系。本文合成數據集包含244個問題,每個問題有64張不同的圖像,一共有15 616張圖像。其中14 562張在訓練集中,1 024張在測試集中。為了減少猜測,所有問題都包含“是或不是”的答案,但為進一步提高性能,問答系統需要學習對形狀、顏色、目標類型的識別,并理解目標之間的空間和邏輯關系。

筆者聆聽了加拿大西蒙菲莎大學(Simon Fraser University)環境學院副院長、考古學系教授、古代DNA實驗室主任楊東亞教授作的題為“古基因組學和考古學的整合”的學術講座。楊東亞教授說:

圖3 本文方法在VQA任務中的案例輸出

為了生成圖像特征的初始集合,本文使用LeNet[18]的卷積部分作為輸入圖像,LeNet與視覺問答部分共同訓練,得出了嵌入LeNet中的預訓練圖像。并將本文方法與LSTM方法[9]作比較。

陶瓷圖像的合成數據集中得出的結果如表2所示。由表2可知,本文方法表現最佳,優于LSTM方法和猜測方法。這表明本文的聯合訓練過程能夠正確地分配不同模塊的任務,進一步說明了本文的方法能夠對復雜組合性現象進行建模。表2中最后一行數據是本文在修改過的訓練集中進行了附加試驗,該訓練集不包含大小為6的問題(即與問題相對應的神經網絡有6個模塊)。這種情況下的性能與全部訓練集的性能基本相同。這表明,本文的模型能夠泛化到比訓練所碰到的更加復雜的問題。有了語言信息,模型就能依據簡單視覺模式,推算到更深的結構中。

表2 從合成數據集中得出的預測精度

3.2 其他自然圖像的VQA

本節在VQA數據集[6]中評估所提方法處理自然圖像認知問題的能力。VQA數據集包含來源于MSCOCO的200 000多幅圖像,每幅圖像有3個問題,每個問題有10個答案,這些答案是由人工注釋器生成。本文使用標準訓練/測試分割來訓練模型(只訓練置信度高的答案)。本文深度神經網絡的視覺輸入是conv5層,在進行最大池化后是一個16層的VGGNet[19],其特征被規范化為0,標準誤差為1。比較的方法有:1)LSTM方法:能夠直接從圖像和問題的編碼中預測答案;2)添加了添加了屬性的LSTM方法(屬性+LSTM);以及常用的猜測方法。

第一組試驗是基本計算結構與本文模型不同,從VQA數據集測試得出的結果如表3所示,在測試-驗證中,回答“是/否”問題和回答數量問題時,本文方法占有較明顯的優勢。對于其他問題和所有問題組合在一起的情況下,所有方法都表現比較差,這是因為目前VQA問題解決的難點。

表3 第1組:VQA數據集測試得出的預測精度

第二組試驗是基本計算結構與本文方法相同,但是其沒有句法組合,即,每個問題使用的網絡布局都是相同的(先用describe模塊,再用find模塊),所有問題中的參數都是相關的,如表1所示,且模塊類型和案例的數量都很大。其測試結果如表4所示,其基本情況與表3的結果類似,這說明句法組合似乎對本文方法沒有太大影響。

表4 第2組:VQA數據集測試得出的預測精度

由表3可知,本文方法優于其他方法,結果表明,本文方法在回答物體屬性或數量上表現最佳。另外,采用人工方式對訓練集中的前50個分析進行檢查表明:大多數(80%~90%)詢問物體的簡單屬性的問題都能得到正確的分析和回答,但是更復雜的問題有時候選出不相關的謂語,從而導致一些問題回答失敗。舉例來說,“人們在哪里踢球”,理想的問題解析應該是(人,哪里),但句法分析器會將問題解析為(人,踢球)。未來,可通過聯合學習來解決此類解析器錯誤。

4 結束語

本文提出了一種多模塊的神經網絡,以解決陶瓷制品相關的VQA問題。其中,神經模塊能夠動態地組合成深度神經網絡,并用這些模塊結構動態地將模塊網絡實例化。同時引入的用戶反饋機制,使得模型準確性更高。另外,還構建了一個組合問題的陶瓷圖像合成數據集,這些組合問題與簡單的形狀排列相關。試驗結果表明所提方法在視覺問答中的性能優于當前一些方法,尤其是在回答物體屬性或數量的問題中。

本文的多模塊神經網絡可以通過訓練來生成可預測的輸出(包括自由組合的輸出),即:從神經網絡中生成更加通用的范例程序。因此,未來本文會擴展到與文件或結構性知識庫有關的查詢研究中。

猜你喜歡
神經網絡模塊圖像
改進的LapSRN遙感圖像超分辨重建
28通道收發處理模塊設計
“選修3—3”模塊的復習備考
有趣的圖像詩
神經網絡抑制無線通信干擾探究
基于神經網絡的拉矯機控制模型建立
復數神經網絡在基于WiFi的室內LBS應用
基于支持向量機回歸和RBF神經網絡的PID整定
遙感圖像幾何糾正中GCP選取
集成水空中冷器的進氣模塊
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合