?

基于模態交互學習的屬性級情感分析

2023-06-05 09:15張紹武崔席郡伊博樂楊亮
關鍵詞:模態文本圖像

張紹武,崔席郡,伊博樂,楊亮

(大連理工大學 計算機科學與技術學院,遼寧 大連 116024)

0 引言

情感分析是利用自然語言處理、文本分析、計算語言學和生物統計學來系統地識別、提取、量化和研究人類的情感狀態和主觀信息的窗口。人們在互聯網上發布的帶有情感特征的信息以指數級增長,情感分析系統廣泛應用于幾乎所有商業和社會領域。意見是大多數人類活動的核心,是我們行為的關鍵影響因素,而我們的思想與對現實的感知以及我們所做的選擇,在很大程度上受制于他人對世界的看法和評價[1]。因此,情感分析對研究個人與社會發展非常重要。

其中,面向文本的情感分析可以分為三個層面,即文檔層面、句子層面和屬性層面[2]。文檔層面的情感分析中假設整個文檔中只包含一個主題。這很明顯在很多情況下是不合理的。通常的情況為一個句子將會包含多個主題(即屬性),在同一個句子中,這些主題表達的情感可能是相反的。屬性級情感分析的目的是判斷討論每個主題所表達的情感極性,在此之上利用評論/推文提供的更多信息進行更詳細的分析。

基于文本的情感分析模型已經在近幾年得到了較大的發展并趨近成熟,且互聯網上大部分的信息往往是文本與其他媒介(即模態)共存的。模態交互的情感分析依賴一種以上模態(如文本和圖像)獲得的信息進行分析[3]。模態交互學習即在文本模態的基礎上,引入其他模態的信息,對多個模態進行交互學習。對文獻的調查顯示,與文本情感分析相比,模態交互的情感分析能使得計算機能夠以更加全面而立體的方式分析人類的情感,也使情感分析進入到了全新的領域。

以圖像-文本雙模態為例,模態本身為信息的渠道,來自多個源的數據大部分在語義上是相關的,互補的[4]。在擁有圖片信息的基礎上,對文字中情感的判別將起到更加積極的作用,如給出文本:“My [mother] is looking at the kitchen VS My [father] is looking at the kitchen.”我們很難從文本中分別判斷屬性詞“mother”和“father”的情感極性,而若以圖片信息加以輔助,如圖1 所示,則很容易得到他們正確的情感極性,即“mother”的情感極性為Negative,“father”的情感極性為Positive。而基于另一模態能得到的信息遠不止于此,它能發現單一模態無法發現的更多屬性關系。因此,模態交互的屬性級情感分析也正在成為一個值得深入研究的子課題,得到國內外研究者的廣泛關注[5]。

圖1 模態交互的屬性級情感分析用例Fig.1 An example of modality interaction aspect-based sentiment analysis

目前模態交互任務所存在的問題在于:

(1)引入圖像模態可能會引入一些噪聲,如一些與文本模態無關的圖片信息,可能會導致模型性能的下降。

(2)圖文模態之間的交互如何進行,如何更好地讓模型將圖像模態中的信息引入到文本模態之中。

基于以上問題,本文基于目前先進的方法首先對文字、圖像雙模態分別使用BERT,ResNet 預訓練模型進行特征提取工作,在關系提取模型決定文本與圖像模態融合方法的前提下,使用Self-Attention 機制與跨模態Attention機制得到文本與圖像模態之間的關系概率值并將其應用于屬性詞提取、情感極性分類兩個下游任務中。本文在Twitter15 和Twitter17 兩個數據集上對模型進行了測試,得到了較為理想的實驗結果。

1 相關工作

多模態屬性級情感分析是多模態情感分析中一項重要的、細化的任務[6]。以前的研究通常將社交媒體中的多模態屬性級情感分析視為兩個獨立的子任務——屬性詞提取和屬性級情感分類。首先,屬性詞提取旨在從自由文本及其附帶的圖像中檢測出所有潛在的一組屬性詞。其次,屬性級情感分類的目的是對特定屬性的情感極性進行分類。

對于多模態屬性詞提取任務,Ma 等[7],Karamanolakis 等[8]提出了序列標記的方法。在實體識別的相關研究基礎上,Moon 等[9]在RNN 上提出了ResNet 模型進行屬性詞提取,并利用圖像模態的信息來增強文本模態的表示。在此之后Yu 等[10]在Transformer 上建立了模型,為了捕捉模態內的動態,Yu 等利用一種有效的Attention 機制來生成屬性詞敏感的文本表示法,然后將它們與文本特征聚合并對圖像模態進行了視覺環境的噪音清洗,在此基礎上進行了模態融合與屬性詞的位置預測。Zhang等[11]在GNN 上,針對基于圖的模型分析句法結構時忽略語料庫級別的單詞共現信息的缺點提出了使用全局詞匯圖來編碼語料庫級別的單詞共現信息模型,在句法圖和詞法圖上建立了一個概念層以區分含各類型依賴關系的詞對,并在此基礎上,設計了一個雙級交互圖卷積網絡,該模型在任務評估中并取得了優秀的結果。

對于多模態屬性級情感分類任務,與Liang等[12]研究的基于文本的屬性級情感分類不同,所用模態的增多也代表了模型復雜度的上升。其中,在多模態的任務上,Xu 等[13]第一個從數字產品評論平臺標注了一個中文數據集用于多模態屬性級情感分析,并為這一任務提出了多交互式記憶網絡模型,其中使用了兩個交互式記憶網絡來監督文本和圖像信息的屬性,同時學習跨模態數據間的交互影響與單模態數據的自我影響。在最近的研究中,Yu 和Jiang[14]在Twitter 中標注了兩個數據集Twitter15 與Twitter17 用于多模態的情感分類任務,在此基礎上,Yu 和Jiang[14]利用BERT 作為基線模型,建立了模態內的動態模型,該研究中使用BERT獲得目標屬性詞敏感的文本表征,并使用Self-Attention 的思想設計屬性詞Attention 機制來進行屬性詞和圖像的匹配,以獲得屬性詞敏感的圖像模態表征,在此基礎上該研究建立了模態間的動態模型,進一步使用跨模態Attention 層捕捉多種模態之間的互動并最終得到了可觀的結果。

在文本和圖像模態的交互任務中,模態融合為研究的核心與關鍵所在。在Alakananda等[15]標注Twitter 文本圖像關系數據集(本研究所應用的數據集)前,多模態文本與圖像關系方面的工作沒有集中在Twitter 等社交媒體的數據上。Alikhani 等[16]在食譜數據集上圍繞以下維度對教學文本和圖像之間的關系進行注釋并訓練模型,而Chen 等[17]使用社交媒體數據研究文本與圖像關系,利用預測關系類型的文本和圖像內容建立模型,其研究重點是區分圖像在整體上與文本內容視覺上相關或不相關。本實驗使用的關系數據集關注了推文語義重疊和對整個推文意義的貢獻。而在文本與圖像的提取任務方面,Feng 等[18]實現了在圖像基礎上生成相應的文本,Mahajan 等[19]使用推文等來源的嘈雜圖像文本對進行訓練,在此大型訓練數據集的基礎上建立了模型并實現了圖像標簽預測的任務。Moon 等[20]的多模態命名實體模糊化任務則利用社交媒體圖像的視覺背景向量來實現命名實體的模糊化處理。Sorodoc 等[21]所實現的多模態(文本與圖像)主題標簽任務則側重于為給定的主題生成候選標簽,并根據相關性對其進行排序。這些任務前提是數據集中的文本與圖像的意義必然有關聯,而在Alakananda 等[15]的研究中表明這種關聯性并不是一定存在的,這也為本研究的文本圖像關系挖掘打下了基礎,提高了文本與圖像模態進行融合時的可行性與有效性。而關于本研究中所用到的標注數據集(Alakananda 等[15]),將會在下文中進行詳細闡述。

2 ReBERT模型

2.1 關系提取模型

本研究在文本圖像模態融合時主要選用Attention 機制進行模態融合,其流程圖如圖2所示。

圖2 關系提取模型模態融合Fig.2 Modal fusion of relation extraction model

與Ju 等[6]使用的方法類似,本研究首先對文本與圖像模態分別使用Self-Attention 捕捉各模態內部的信息并進行特征表示,該模塊采用了多頭Attention 模型來進行實現。多頭Attention 即當給定相同的Q,K,V(查詢,鍵,值)的組合時,為了令模型可以基于相同的Attention機制學習到不同的行為,不單單使用一個Attention 池化,該模型通過線性投影來變換Q,K,V,將變換后的Q,K,V并行進行Attention池化。將不同線性投影的Attention 池化輸出進行concat 后,通過線性變換即可產生最終輸出。該模型的主要框架如公式(1)—(4)所示。

(1) 字向量與位置編碼

(2) Self-attention 機制,其中WQ,WK,WV均為可學習參數

(3) 殘差連接與歸一化處理

(4) 每個Attention 頭的計算方法,其中WQ,Wk,WV均為可學習參數,而f(x) 為Attention 池化函數。

基于這種設計,每個Attention 頭都能夠關注輸入的不同部分??梢员硎颈群唵渭訖嗥骄蹈鼜碗s的函數結構,更多角度地實現其特征表示。每個文字經過多頭Attention 機制之后會得到一個R矩陣,這個R矩陣表示這個字與其他字在N個角度(Attention 頭)的關聯。Transformer 結構依賴于Attention 機制,以優異的性能取代了基于Encoder-Decoder 的循環層,并引入了位置嵌入,本研究的多頭Attention 總數為8,能夠較好地捕捉模態內的聯系。

而后進行跨模態交互,分別對文本圖像模態進行跨模態Attention 以捕捉文本圖像模態之間的信息,其有關跨模態Attention 如以下公式(5)所示,最后再分別對其Self-Attention 與跨模態Attention 的特征進行concat 操作,再將其送入前饋神經網絡中進行預測,從單模態以及多模態多個層面更加全面地得到其預測結果,其預測分數將表示為Sr。

如公式(5)所示,跨模態Attention 模型同樣為多頭Attention 模型,其大體模型結構與上文中的單模態下自Attention 的框架類似,該模型利用Transformer 從跨模態交互中捕捉每個序列間的互動。設其中一模態為α,另一模態為β,則模態(β→α)之間的跨模態Attention 則為Zα,CMβ→α為跨模態Attention 機制,其中兩模態的輸入為Xα,Xβ,d為輸入維度,在此基礎上進行跨模態運算。

2.2 ReBERT模態交互屬性詞提取模型

本研究提出基于關系提取的屬性詞提取模型,即ReBERT,其關鍵是利用上文關系提取模型對圖像模態輸入進行控制,并在此基礎上使用Attention 機制,在數據集進行跨度(Span)標注的前提下進行屬性詞預測,其主要模型結構如圖3 所示。

圖3 屬性詞提取的ReBERT模型結構Fig.3 Overall architecture of ReBERT for aspect term extraction

基于關系提取模型的輸出結果Sr,在進行模態間融合前應進行輸入圖像模態的控制,其控制方式如公式(7)所示:

Re函數為前文關系提取模型的概括函數,當其輸入為T,I即文本模態與圖像模態后,將其得到的關系概率值與從ResNet 模型中新訓練的圖像模態In進行點乘,以得到被賦予關系概率的與文本模態進行交互的圖像模態特征。

應用上文中的跨模態Attention,將文本模態與圖像模態進行交互,如公式(8)所示:

其中 ⊕ 為元素的哈達瑪積(Hadamard product),對輸入向量T給定的“權重”也就是經處理后的圖像模態Inr進行列縮放,wa和ba分別為可學習的權重和偏置。

而hL將用于接下來的預測任務中,與RAN 與UMT 等使用BIO 標簽的模型不同,該模型采用了Ju 等[6]與Hu 等[22]的SPAN 標簽方法,即基于跨度(Span)的提取框架,在屬性詞跨度邊界的監督下,直接從句子中提取多個屬性詞并利用其跨度表示對相應的情感極性進行分類。

如上文Twitter15/17 數據集的標記方法,本研究根據Hu 等[22]的研究引入了其提取框架用于屬性詞的提取。該算法要求其使用啟發式多段編碼來提?。ǘ鄠€)屬性詞,并用其跨度表示對其進行分類解碼。采用該方法的優點是屬性詞提取的搜索空間可以隨著句子長度的增加而線性減少,遠遠低于RAN,UMT 所用的BIO 標簽法的復雜度。

其中,ws與we為其可訓練參數,得到Ps與Pe則分別為SPAN 標記法所標注的屬性詞的開始位置與終止位置。在Twitter15 與Twitter17 數據集中為“T-NEG/POS/NEU-B”到“T-NEG/POS/NEU”且下一標記為“O”的位置。

該模型的損失函數Losse如下公式(10)所示:

其中,若每個句子中有多個屬性詞,則其判別結果將存儲于一個新的向量中。對于所記錄的屬性詞開始位置,則在ys中存儲;對于所記錄屬性詞的結束位置,則在ye中存儲。

2.3 ReBERT模態交互屬性級情感識別模型

本研究提出基于關系提取的屬性級別情感識別模型即ReBERT,其關鍵是利用關系提取模型控制圖像模態的輸入,并在此基礎上使用Attention 機制來進行模態內與模態間的交互,其主要模型結構如圖4 所示。

圖4 情感分析的ReBERT模型結構Fig.4 Overall architecture of ReBERT for sentiment analysis

令M為一組多模態數據,每一個多模態數據mi∈M由以下三部分組成:推文文本Si=(w1,w2,…,wn),其中n為文本的詞數;推文相關的圖像Ii;推文屬性詞Ti,其中Ti為Si的子集。

其中推文屬性詞的情感標簽可以分為yi∈ {Negative,Neutral,Positive}.而本研究的目標是訓練一個模型能夠計算函數f:(Ti,Si,Ii) →yi,即做到屬性詞情感極性的預測。

基于關系提取模型的輸出結果Sr,在進行模態間融合前應進行輸入圖像模態的控制,其控制方式如公式(11)所示,與前文屬性詞提取任務采用相同的方法對模態進行交互與連接。

在此基礎上應用上文中的跨模態Attention,而根據Yu 等[14]的研究,對多模態進行最終池化的方法有三類。其一為多模態輸入序列的第一個標記總是區域圖像特征的加權和,該隱藏狀態作為一個圖像模態的多模態表現,包含了比較豐富的模態信息,因此可以作為輸出。即Out=H0;其中H為經Attention 操作之后用于進行分類操作的多模態特征。其二為[CLS],特殊標記(即句子輸入中的[CLS]標記)的最終隱藏狀態作為一個文本模態的多模態表現,包含了比較豐富的模態信息,因此可以作為輸出。即Out=H[CLS];其三為將文本圖像雙模態的隱藏狀態進行concat 后混合輸出,即Out= [H0,H[CLS]]。此后將Out送入一個線性函數則可以得到情感的預測值,其計算如公式(12)所示:

其中,wp為其可訓練參數,該模型的損失函數Lossc如公式(13)所示:

3 實驗

3.1 實驗數據

3.1.1 關系數據集

該實驗進行圖像與文本模態關系模型訓練時所用的Twitter 數據集為Alakananda 等[15]所標注的Twitter 文本圖像關系數據集。在對2016 年的推文進行注釋后使用langid.py 過濾非英文推文,最終用于本實驗的關系數據集包含4471 條推文。該數據集使用 Figure Eight(CrowdFlower)平臺對4471 條從推文中收集的文本圖像進行注釋。

表1 關系數據集中各類型數據Table 1 Statistics of the relationship dataset

3.1.2 Twitter數據集

Twitter2015 與Twitter2017 數據集由Yu等[10]從TwitterAPI 上集中獲取,包含了從2016年5 月,2017 年1 月和2017 年6 月提取的推文及其相關圖像。該數據集在數據篩取時未考慮不含有圖片的信息,且若推文有一個以上的圖片與之相關,則該數據集僅隨機選取了其中一個圖像作為其關聯圖像。

數據集將被隨機分割為train(60%),development(20%)與test(20%)部分,分割后的Twitter2015 與Twitter2017 各情感標簽下的數據如表2 所示。

表2 Twitter 2015和Twitter 2017數據集數據量表Table 2 Statistics of the Twitter 2015 and Twitter 2017

3.2 實驗參數

實驗參數如表3 所示。

表3 實驗參數設置Table 3 Experiment parameters settings

3.3 評價指標

情感識別任務中,常用的評價指標是精確率(Precision),召回率(Recall)與F1 值。其對應的計算公式如(14),(15)與(16)所示:

對于多標簽分類任務(如本研究屬性級別情感預測中的三標簽POS/NEU/NEG 分類任務),應對F1 值的算法進行一些調整。Macro-F1 的計算方法如公式(17)所示:

3.4 對比模型

(1)LSTM + InceptionNet 模型:Alakananda等[15]用了concat 的特征融合方法與全連接層的預測方法。

(2)RAN 模型:RAN 是由Wu 等[23]提出的首個多模態屬性詞提取模型,其重點在于從圖像模態捕捉正確的信息并加入對屬性詞位置的分析中。

(3)UMT 模型:UMT 是Yu 等[24]提出的多模態屬性詞提取模型。

(4)TomBert 模型:TomBERT 是由Yu 等[14]提出的基于BERT 的多模態屬性級情感識別模型。

(5)ESAFN 模型:ESAFN 是由Yu 等[10]基于LSTM 提出的多模態屬性級情感識別模型。

3.5 實驗結果與分析

3.5.1 關系提取模型實驗結果

Alakananda 等[15]的研究模型為LSTM +InceptionNet,本研究的模型則為BERT +ResNet,其中LSTM + InceptionNet 模型的超參數設置與Alakananda 等進行實驗時所設置的相同,而本研究BERT + ResNet 基礎上的關系提取模型中使用的超參數列表如表3 所示,其參數初值主要參考了Khan 等[25]同樣基于BERT的多模態屬性級情感識別任務,在本研究基礎上進行微調即得到模型較優的參數設置。

本研究用訓練集的十折交叉驗證來調整參數以測試算法的準確性。其訓練結果可表示為Ei。最后對訓練后的10 個模型的結果求均值,如公式(18)所示,該結果即可作為最后交叉驗證的結果。

經十折交叉驗證取平均后,本研究中使用BERT + ResNet 模型的實驗結果與Alakananda等[15]LSTM +InceptionNet 的實驗結果如下表4所示。

表4 關系提取模型實驗結果Table 4 Experimental results of relation extraction model

通過對比關系提取模型可以看出,在文字與圖像模態的特征提取模型變化后,其對圖片是否會對文本產生增益的判斷效果沒有任何影響?;陉P系數據集構造的關系提取模型能夠較好地預測圖像模態的數據是否需要與文本模態進行融合,在已有模型的基礎上對下游任務的效率與預測結果進行了優化。

3.5.2 屬性詞提取模型實驗結果

在屬性詞提取這一子任務上,本研究提出的模型ReBERT 分別與上文中提及的經典模型UMT 與RAN 分別進行了對比實驗,并進行了消融實驗。以上實驗均在Twitter 2015/2017 兩數據集上分別進行測試,其使用方法為上文關系提取模型中所用到的十折交叉驗證方法,從10 次結果中取平均值得出可靠性強的實驗結果。其各模型上的實驗結果如表5—表8 所示,分別展示了各任務下各實驗模型的精確率,召回率與其判斷重要標準F1 值。

表6 Twitter2017屬性詞提取對比實驗結果Table 6 Comparative experimental results of aspect extraction on Twitter 2017

表7 Twitter2015屬性詞提取消融實驗結果Table 7 Ablation experimental results of aspect extraction on Twitter 2015

表8 Twitter2017屬性詞提取消融實驗結果Table 8 Ablation experimental results of aspect extraction on Twitter 2017

由以上實驗結果,可以看出本研究模型在原基線模型上的進步,在消融實驗基礎上與RAN 與UMT 模型進行比較,可以發現當關系模型或圖像模態從ReBERT 模型中去除時其模型效果的下降十分明顯,甚至在模型表現上劣于基線模型。而對比將圖像模態去除時的實驗結果,可以發現ReBERT 模型的效果下降比除去關系模型時的程度小。因此可以得出關系模型對ReBERT 實驗結果的影響較大,文本圖像模態的融合是該任務得到提升的關鍵之一。

3.5.3 屬性級情感分析模型實驗結果

在屬性級情感分析這一子任務上,本研究提出的模型ReBERT 分別與上文中提及的經典模型TomBERT 與ESAFN 分別進行了對比實驗,并進行了消融實驗。

其實驗設置同上述章節。其各模型上的實驗結果如表9—表12 所示,分別展示了各任務下各實驗模型的精確率、召回率與F1 值。

表9 Twitter2015屬性級情感分析對比實驗結果Table 9 Comparative experimental results of sentiment analysis on Twitter 2015

表10 Twitter2017屬性級情感分析對比實驗結果Table 10 Comparative experimental results of sentiment analysis on Twitter 2017

表11 Twitter2015屬性級情感分析消融實驗結果Table 11 Ablation experimental results of sentiment analysis on Twitter 2015

表12 Twitter2017屬性級情感分析消融實驗結果Table 12 Ablation experimental results of sentiment analysis on Twitter 2017

在消融實驗基礎上與TomBERT 和ESAFN模型進行比較,可以發現當關系模型或圖像模態從ReBERT 模型中去除時其模型效果下降明顯,且在少數情況下模型表現上劣于對比實驗模型。消融實驗的結果表明去除關系模型與去除圖像模態對ReBERT 模型的影響幾乎相當。由此可以推斷,與屬性詞識別不同,屬性級別情感識別任務對圖像模態更加敏感,受圖像模態影響更大。

4 結論

本文分別介紹了關系提取模型,屬性詞提取模型,屬性級情感識別模型的實驗結果,分別在Twitter 15/17 數據集上進行了多重驗證,在已有研究的基礎上進行了對比試驗,論證了實驗的可行性;在本研究模型的基礎上進行了消融實驗,論證了實驗的必要性;本研究的所有模型結果均在十折交叉驗證的基礎上得出,保證了實驗結果的準確性。由此得出本研究建立的基于關系提取的屬性級情感識別模型能夠較好地完成任務,根據本研究的評價標準,本研究的研究成果符合要求。

猜你喜歡
模態文本圖像
改進的LapSRN遙感圖像超分辨重建
有趣的圖像詩
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
國內多模態教學研究回顧與展望
基于HHT和Prony算法的電力系統低頻振蕩模態識別
由單個模態構造對稱簡支梁的抗彎剛度
如何快速走進文本
遙感圖像幾何糾正中GCP選取
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合