?

一種結合ViLBERT和多模態知識圖譜注意力網絡的新聞推薦方法

2024-01-01 10:46李澤宇王紫欣
關鍵詞:三元組圖譜實體

李澤宇,王紫欣

(1.北京郵電大學,北京100876;2.中國傳媒大學,北京 100024)

1 引言

在網絡媒體快速發展的現代社會,如何高效地為用戶推薦其可能感興趣的新聞,已成為推薦系統領域越來越受關注的研究課題。

現有的新聞推薦系統常用基于協同過濾(Collab‐orative Filtering,CF)[1]的方法。但早期直接利用與目標用戶興趣相似的用戶為其進行推薦的基于領域的協同過濾,以及后期出現的以奇異值分解(Singular Value Decomposition,SVD)為代表的基于潛在因子模型的協同過濾方法,都面臨著數據稀疏問題和冷啟動問題[2]。

隨著深度學習的發展,Salakhutdinov 等[3]將受限玻爾茲曼機與協同過濾結合,將深度學習的方法應用于推薦系統領域。隨后循環神經網絡(Recurrent Neu‐ral Networks,RNN)和卷積神經網絡(Convolutional Neural Networks,CNN)等深度學習網絡被引入推薦系統領域[4?5]?;谏疃葘W習的推薦算法從用戶和項目的歷史交互數據中進行特征學習,將數據映射到另一維度的空間中,獲得用戶和項目的深層次特征表示。該方法能夠有效提升推薦系統的準確度,但數據稀疏所帶來的一系列問題依然存在。加入更多的輔助信息能夠有效解決數據稀疏問題和冷啟動問題。

知識圖譜(Knowledge Graph,KG)包含內容豐富的輔助數據,可以精確地描述各類用戶和項目的屬性[6]。Wang 等[7]通過實驗證明,基于知識圖譜的推薦系統能有效緩解數據稀疏導致的一系列問題。因此,將知識圖譜作為輔助數據源引入推薦系統,已成為近年來推薦系統領域的研究熱點[8?9]。然而,目前基于知識圖的新聞推薦均忽略了新聞中的多模態信息,但新聞的視覺和文字特征在推薦系統中同樣重要。因此,有必要將多模態信息引入知識圖,將圖像或文本當做實體或者實體相關屬性。圖1為具體的多模態知識圖譜(Multi?Modal Knowledge Graph,MKG)示例。本文實驗也證明,引入MKG 能夠有效提高新聞推薦的質量。

圖1 多模態知識圖譜示例圖

基于知識圖的推薦中最關鍵的部分為知識圖表示學習,基于知識圖的推薦模型通常使用知識圖表示模型來學習知識圖實體的嵌入,將其反饋到具體的推薦任務中。目前的知識圖表示學習分為兩類:基于特征的方法[10?11]和基于實體的方法[12]。前者將各類別的模態信息當做對應實體的輔助特征,通過實體對應的標題和圖像中分別提取文本信息和視覺表示,可以拓展翻譯模型(the Translational Models)[13],其中某個映射在關系空間中的三元組的似然性得分(或能量得分)是根據KGs的結構及該三元組中對于實體的向量表示決定的。但是基于特征的方法構建知識圖的數據源要保證知識圖中的每個實體都有相同種類的多模態信息,這樣的要求在實際數據集中很難被滿足。因此,研究人員提出了基于實體的方法,這種方法不再將文本和圖像等不同類型的信息視為實體的輔助信息,而是將其都當做知識圖譜中的實體,進而參與構建不同的三元組?;趯嶓w的方法可以充分且直觀地利用知識圖譜的網絡結構,通過引入新的關系來引入視覺和文本信息。引入新的信息后可以通過翻譯模型學習知識圖的嵌入。雖然基于實體的方法能降低對MKG 數據源的要求,但其只能關注到實體之間的推理關系,容易忽略多模態信息之間的融合。實際上,多模態信息在融合后,本身就可以作為輔助信息豐富其他實體的信息。因此,在建模實體之間的推理關系之前,需要一種直接的交互方式,將多模態信息顯式地融合到對應的實體中。為此,本文提出了一個能充分利用多模態信息的MKG 表示模型,這一模型采用基于實體的方法構建多模態知識圖,結合ViL‐BERT 的多模態知識圖注意網絡(ViLBERT combined with Multi?modal Knowledge Graphs Attention Net‐work for News Recommendation,VMKGAT)。模型首先通過預先訓練的Mask R?CNN 模型[14]提取新聞圖像的感興趣區域(Region of Interest,ROI),用于目標檢測。然后使用預先訓練的視覺語言模型[15]對新聞文本和新聞圖像的ROI 進行編碼,并通過注意力Transformer網絡(Co?attentional Transformer Network)對其固有的跨模態相關性進行建模,學習準確的多模態新聞表示。融合了多模態信息后,VMKGAT 通過實體信息聚合實體的鄰居節點信息,再進行實體關系的推理,利用三元組的打分函數(如TransR)構建推理關系。VMKGAT 模型不是對每個知識圖進行三元組獨立處理,而是對實體的鄰居信息進行聚合,可以更好地學習融合其他模態信息的實體嵌入。

本文的貢獻可以總結為:

(1)將多模態知識圖引入到新聞推薦領域。

(2)開發了一種新的VMKGAT 模型,在圖神經網絡框架下以顯式信息融合方式實現了高階關系建模。

(3)在兩個大規模真實英文和中文新聞數據集上進行大量實驗證明了模型的合理性和有效性。

2 研究現狀

本文相關的背景知識和現有工作包括多模態知識圖譜、多模態預訓練和基于知識圖的推薦。

2.1 多模態知識圖譜

知識圖譜技術已經被廣泛用于處理結構化數據和文本數據,但對非結構化的視覺數據關注度較低,缺乏有效的技術手段從中提取結構化知識。近年來,一些多模態視覺技術被提出,但這些技術主要用于提升圖像分類、圖像生成、圖像問答,不能支撐多模態知識圖譜的構建。視覺數據庫通常是圖像或視頻數據,提供關于知識圖譜中實體的視覺信息。如果在更大范圍內進行鏈接預測和實體對齊,并進行實體關系抽取,現有的模型在綜合考慮文本和視覺特征時應能獲得更好的性能。

傳統知識圖譜主要集中研究文本和數據庫的實體和關系,多模態知識圖譜在傳統知識圖譜的基礎上構建了多種模態(例如視覺模態)下的實體語義關系[24],如圖1 所示。多模態知識圖譜的應用場景十分廣泛,一個完備的多模態知識圖譜對跨領域的信息融合研究有極大幫助。多模態結構數據在底層表征上是異構的,但相同實體的不同模態數據在高層語義上是統一的,因此多種模態數據的融合有利于推進語言表示等模型的發展,為在語義層級構建多種模態下統一的語言表示模型提供數據支持。其次多模態知識圖譜技術可以服務于各種下游領域,例如多模態實體鏈接技術可以融合多種模態下的相同實體。

2.2 多模態預訓練

多模態新聞推薦任務中,多模態數據的處理十分重要,數據的預處理及預訓練的質量會直接影響推薦系統的準確度。近年來,自然語言處理領域較熱門的BERT 模型[16]是基于Transformer 模型的雙向語言模型,其使用大量的無標注數據預訓練,明顯提高了多種自然語言處理任務的效果。本文使用的ViLBERT 模型[15]是最早將BERT 擴展到多模態的模型之一。

目前,圖像?文本多模態預訓練模型主要采用Transformer結構,訓練數據來自圖像標注數據集的圖像?文本對,其中的文本是對應圖像的自然語言描述。對各下游任務,模型的使用方法可以參照純文本Transformer模型的使用方法:對分類任務,提?。糃LS>或所需位置對應的表示傳入分類器;對序列任務,通過對Transformer模型輸出的表示序列進行后續操作。ViLBERT處理多模態數據的方式采用雙流結構,分別對每種模態進行建模,通過一組基于注意力的交互將模態進行融合。這種方法允許對每種模態使用可變的網絡深度,并支持不同深度的跨模態連接。圖像和文本兩種模態分為兩條路徑進行處理,圖像和文本的表示只在模型尾段發生交互。在ViLBERT 圖像流(圖2 上半部分)中,圖像首先通過特征抽取模型提取出一系列ROI 和每個ROI 的向量表示,傳入隨機初始化的層Transformer Encoder 中;為了編碼ROI 的位置信息,每個ROI的表示都加上了被投影到與其表示相同維度的5維位置信息。文本流 (圖2下半部分)采用預訓練好的層BERT,對文本的處理與BERT一致。

圖2 ViLBERT示例圖

圖像和文本分別含有分類標記。圖像分類標記<IMG>在被拼接于ROI 序列前傳入圖像流,文本分類標記<CLS>在被拼接于token 序列前傳入文本流,通過計算對應輸出表示hv與hw的點積并學習一個線性層,可以判斷給定的圖像和文本是否匹配。

2.3 基于知識圖的推薦

近年來,已有研究在嘗試利用KGs結構進行推薦,現有的方法大體上可以分為基于嵌入的方法、基于路徑的方法和混合方法三種類型。

基于嵌入的方法[8,17]通常用知識圖嵌入(Knowledge Graph Embedding,KGE)[18]算法對知識圖譜進行預處理,將知識圖譜中的所有實體和關系統一表示為嵌入向量,進而擴充原有物品和用戶表征的語義信息,再將學習到的實體和關系嵌入做為推薦部分的輸入。Zhang等[19]結合知識圖譜表示學習方法提出了協同知識庫嵌入(Collaborative Knowledge base Embedding,CKE),將CF模塊與知識嵌入、文本嵌入和項目圖像嵌入結合在一個統一的貝葉斯框架中。Wang等[8]提出的深度知識網絡(Deep Knowledge?Aware Network, DKN)將實體嵌入和單詞嵌入作為不同的通道,使用CNN框架將其結合進行新聞推薦。之后Wang等[20]又提出了知識圖譜增強推薦的多任務特征學習(Multi?Task Feature Learning for Knowledge Graph Enhanced Recommendation, MKR),通過多任務學習框架,交替進行知識圖譜表示學習和推薦模塊訓練,可抑制過擬合并提高泛化能力。從實際的推薦效果來看,基于嵌入的方法在利用知識圖輔助推薦系統方面表現出了很高的靈活性,但由于這些方法中采用了KGE算法和平移模型,所以基于嵌入的方法僅利用了知識圖譜中的語義信息,而未能很好地利用知識圖中的結構信息,導致該方法會忽略掉多模態信息之間的融合,不能很好地處理多模態知識圖。

基于路徑的方法[21?22]通常會將知識圖譜視為一個異構信息網絡(Heterogeneous Information Network,HIN),通過探索知識圖中項目之間的各種連接模式,為推薦提供額外的指導。例如,在個性化實體推薦(Per‐sonalized Entity Recommendation,PER)[21]和基于元圖的推薦[22]中提取基于元路徑/元圖的潛在特征,用這些特征表示用戶和項目之間不同類型的關系路徑/圖的連通性?;诼窂降姆椒ㄍǔD軌虺浞智抑庇^地利用知識圖譜的網絡結構,但需要手工構建元路徑,且構建的元路徑的質量對推薦結果影響較大。因此不能方便有效地挖掘圖譜中所有信息?;诼窂降姆椒ㄔ趯嵺`中很難進行優化且不能適用于所有場景。

混合方法是由基于嵌入的方法和基于路徑的方法集成而來的?;谇度氲姆椒ɡ肒Gs中實體的語義表示進行推薦,基于路徑的方法使用KGs中實體之間的連接模式進行推薦,兩者都只利用了KGs中信息的一個方面。為了充分利用KGs中的信息進行更好的推薦,研究人員提出了混合的方法,該類方法目前還沒有統一的權威定義,但大多集成了實體和關系的語義表示以及連接信息的模式,同時依賴于KGE。例如,Li等[23]提出的注意增強的知識感知用戶偏好模型(Attention?Enhanced Knowledge?Aware User Preference Model for Recom‐mend,AKUPM)和Wang 等[9]提出的知識圖注意網絡(Knowledge Graph Attention Network for Recommen‐dation,KGAT)?;诨旌戏椒ǖ哪P痛蠖嗖捎昧薑GE,所以與基于嵌入的方法類似,混合方法也會獨立地處理每一個三元組,而不考慮多模態信息融合。

3 模型框架

3.1 基本概念

本節介紹本文模型中涉及到的一些概念,并對基于多模態知識圖譜的推薦任務建模。

3.1.1 用戶-項目二部圖

在推薦場景中,通常有歷史的用戶?項目交互(例如單擊)。這里把用戶和新聞的交互數據表示成用戶?項目二部圖G1= {(u,yui,i)|u∈U,i∈I},其中U和I分別表示用戶集和項目集,函數yui= 1表示用戶u與項目i之間存在觀察到的交互行為,否則yui= 0。

3.1.2 知識圖譜

除了交互之外,通??紤]知識圖譜中項目邊(side)信息。這些輔助數據一般由真實世界的實體和它們之間的關系組成,用以分析一個項目。例如,一篇新聞可以由作者、標題和類型等來描述。

知識圖譜G2=(V,E)為有向圖,其中V為節點集,E為邊集。 節點是實體,邊是主體?屬性?對象(subject?property?object triple facts)三重事實。每條邊都屬于一個關系類型r∈R,其中R是一組關系類型。(head entity, relation, tail entity)形式的每條邊記為(h,r,t),其中(h,t∈V,r∈R)表示r從h到t的關系。

3.1.3 協同知識圖譜

協同知識圖譜(Collaborative Knowledge Graph,CKG)將用戶行為和項目知識編碼為統一的關系圖,本文用G表示。CKG首先定義一個用戶?項目二部圖,基于item?entity對齊集,可以將用戶?項目二部圖與知識圖譜無縫集成為統一的圖。如圖3所示,ie1、ie2和ie3同時出現在知識圖譜和用戶?項目二部圖中,CKG的對齊依賴于它們。

圖3 協同知識圖譜示例圖

3.1.4 任務描述

本文設計了基于多模式 KGs的推薦任務,即:輸入協作知識圖譜,包括用戶?項目二部圖和多模態知識圖譜;輸出一個預測函數y?ui,用于預測用戶u選擇某個新聞i的概率。

3.2 架構概述

VMKGAT模型框架如圖4所示,主要包括三部分:

圖4 VMKAGT模型框架圖

(1)嵌入層:通過多模態知識圖譜實體編碼器,在保留CKG結構的同時,將每個節點作為一個向量進行參數化。

(2)有關注的嵌入傳播層:遞歸地將嵌入信息從一個節點的鄰居中傳播,將每個實體的鄰居實體信息聚合到每個實體本身,學習新的實體嵌入。

(3)預測層:將用戶和項目在所有傳播層的表示進行聚合,輸出預測的匹配分數。

VMKGAT 模型中多模態知識圖譜實體編碼器(Multi?Modal Knowledge Graph Entity Encoder)能將多模態實體合并到模型中,并利用深度學習為實體構建編碼器并表示,為所有實體提供嵌入。如圖5所示,使用不同的編碼器嵌入特定的數據類型。

圖5 多模態知識圖譜實體編碼器

結構化知識是以(h,r,t)形式存在的三元組信息。為了將head entityh, tail entityt和relationr表示為獨立的嵌入向量,通過嵌入層傳遞實體id或關系id生成密集向量。

通過預先訓練的Mask R-CNN 模型[14]提取新聞圖像的ROI,然后將ROI 輸入到預先訓練的視覺語言模型[15]中,實現對新聞圖像的ROI編碼。

文本信息與內容高度相關,可捕捉用戶的偏好。本文將文本轉化為詞序列,輸入到預先訓練的視覺語言模型中,得到對應的句子向量。

最后,如圖5所示,使用全連接層將實體的所有模態統一到同一個維度中。

如圖6 所示,沿著高階連接性[25]遞歸地傳播嵌入。利用圖注意網絡(Graph Attention Networks,GATs)[26]思想,生成級聯傳播的注意權值,以揭示這種連通性的重要性。GATs 雖然有效,但由于忽略了KGs 之間的關系,不適用于KGs,因此本文對GATs 進行修改,考慮了KGs關系的嵌入。此外,注意力機制[27]的引入可以減少噪聲的影響,使模型關注有用信息。

圖6 多模態知識圖譜注意層示意圖

3.3 嵌入層

知識圖嵌入是將實體和關系作為向量表示進行參數化的有效方法,保留了圖的結構。本文在CKG上使用了TransR方法。具體來說,如果圖中存在一個三元組(h,r,t),首先將實體空間內的實體通過 Mr 矩陣投影到關系r所在空間內,得到hr和tr,然后使hr+t≈tr,學習嵌入各個實體和關系。本文用eh,et∈?d,er∈?k分別表示h,t和r的嵌入。因此,對給定的三元組(h,r,t),其似然性得分(或能量得分)表述如下式:

其中,Wr∈?k×d為關系r的變換矩陣,將d維實體空間中的實體投影到k維關系空間中。s(h,r,t)的分數越接近0,則表明三元組更有可能是真實的,反之亦然。

知識圖譜嵌入的TransR 訓練考慮了有效三元組和無效三元組之間的相對順序,并通過計算排名損失來考量它們的區分:

其中,T ={(h,r,t,t')|(h,r,t) ∈G,(h,r,t')?G },(h,r,t')是通過隨機替換有效三元組中的一個實體來構造得到的無效三元組。σ(.)是sigmoid 函數。該層以三元組的粒度對實體和關系進行建模,作為正則化器并將直接連接注入到表示中,提高模型的表示能力。

3.4 注意力嵌入傳播層

一個實體可以包含在多個三元組中,連接多個三元組和傳播信息。與圖卷積網絡(Graph Convolutional Network, GCN)[25]或者圖神經網絡(Graph Sample and Aggregate,GraphSage)[30]中的信息傳播不同,本文模型不僅利用了圖的鄰近結構,而且指定了不同重要性的鄰居,建立了圖卷積網絡的結構,實現了沿高階連通性的遞歸嵌入傳播[28]。此外,利用圖注意力網絡的思想,得到了級聯傳播的注意權值,揭示了這種連通性的重要性。給定一個候選實體h,對于實體h的多模態鄰接實體,將這些信息聚合到實體h,以豐富實體h的表示。Nh={(h,r,t)|(h,r,t) ∈G }表示與h直接相連的三元組集合。eA表示一個聚合鄰居實體信息的表示向量,它是每個三元組表示的線性組合,可在公式(3)中計算:

其中e(h,r,t)是每個三元組的嵌入,而π(h,r,t)是每個三元組e(h,r,t)的注意力分數,π(h,r,t)控制傳播的三元組(h,r,t)上每次傳播的衰減因子,表示在關系r的條件下從t傳播到h的信息量。

保留e(h,r,t)和π(h,r,t)中的關系嵌入,其中的參數是可學習的。對于三元組e(h,r,t),通過對head entity, tail entity 和 relation 的嵌入串聯進行線性變換來學習這種嵌入,表達式為:

其中Wa是權重矩陣,是可訓練的模型參數,||表示串聯操作。通過關系注意力機制實現π(h,r,t),計算公式如下:

其中,Wb是一個可訓練的權重矩陣。

按照GATs[26]中的方法選擇LeakyReLU[29]作為非線性激活函數。采用softmax 函數對與h 相連的所有三元組的系數進行歸一化:

注意力評分能夠建議給予哪個鄰居節點更多的注意力來捕獲協同信號。當執行正向傳播時,注意力流建議關注數據的某些部分,這些部分可以作為推薦背后的解釋。

一天上午,我上課的時候突感身體不適,難受至極,苦挨到下課后直奔寢室睡了兩小時。這是我當老師以來第一次不管不顧地睡過去。直到下午兩點多,我到辦公室繼續奮戰那還沒有批改完的一摞摞試卷,時不時有學生進來問我好點了嗎。我突然心頭一震,回想這一年來,連調皮學生所給我的難堪,也都成了美好的回憶。

為了不丟失初始eh信息,這一階段將實體表示eh和對應的eA聚合為實體h 的新表示。在本文中通過以下兩種方法實現聚合函數f(eh,eA)。

(1)使用線性轉換將eh和eA連接在一起,由公式(6)可以得到:

其中||表示串聯操作,Wc是可訓練的模型參數。

(2)考慮了eh和eA之間的基于元素的add 特征交互,由公式(7)可得:

其中Wd是一個權重矩陣,用來將當前表示轉移到一個常見空間,是可訓練的模型參數。參考殘差網絡[31]的流程,也選擇在初始的eh上進行線性轉換。

為了實現高階傳播,通過疊加更多的傳播和聚合層,進一步探索協同知識圖譜中固有的高階連通性。通常,對于n?layer模型,傳入的信息是在n?hop附近積累的。

3.5 模型預測

每個實體通過知識圖譜嵌入模塊得到相應的嵌入,將其輸入到推薦模塊。與知識圖譜嵌入模塊類似,推薦模塊也使用MKGs 注意層聚合鄰居實體信息。

其中 || 為串聯操作,L為MKGs 注意層數。這樣不僅可以通過執行嵌入傳播操作來豐富初始嵌入,而且可以通過調整L來控制傳播強度。

最后,通過式(10)計算user 和item 內積,預測匹配分數:

3.6 最優化

為了進一步優化推薦模型,提高推薦的準確度,使用BPR 損失函數(Bayesian Personalized Ranking Loss,BPR)[33]優化推薦預測損失。假設指示更多用戶偏好觀察到的記錄比沒觀察到的記錄被賦值更高的預測分數。目標函數Lall的計算如式(11)、(12)所示:

其中O ={(u,i,j)|(u,i) ∈?+,(u,j) ∈?-} 表示訓練集,?+表示用戶u和項目i之間被觀察到的交互,?-是采樣的沒觀察到的交互集,σ(.)是sigmoid函數。Θ是模型的參數集,λ是L2歸一化的參數。

交替更新MKGs 嵌入模塊和推薦模塊中的參數,采用小批量Adam 優化器[34]對嵌入損耗和預測損耗進行優化。Adam 優化器是一種應用廣泛的優化算法,能夠自適應地控制學習速率和梯度的絕對值。特別地,對于隨機抽樣的一個batch(h,r,t,t'),更新所有實體的知識圖譜嵌入,然后隨機抽取一個batch(u,i,j),從知識圖譜嵌入中檢索,對兩個模塊的損失函數進行交替優化。

4 實驗與分析

4.1 實驗設置

4.1.1 數據集

用于新聞推薦的數據集目前已有很多,但大多只有新聞文本而不包含圖片(如MIND[35])。在數據集相對較多的英文新聞推薦領域,雖然也有一些開源的公共數據集包含新聞圖片,如addressa[36],但這些數據集中新聞與圖片的比例很小,且許多下載新聞圖片的url目前無法使用。此外,目前還沒有公開的多模態中文新聞數據集。

由于目前還沒有包含多模式新聞信息的高質量數據集,本文自主構建了兩個可用的數據集。在英文新聞數據集方面,對MIND 數據集進行了處理,通過爬取數據集中每條新聞對應的url,刪除無法訪問的新聞后,為可用的新聞添加對應的圖片url,構建了英文數據集。此外,基于新浪新聞網(2021年9月1日至2021年9月20日)的數據,收集了部分日志,構建中文新聞數據集,其中第一周的日志用于構建用戶歷史,其余會話用于形成交互示例。

參考MovieLens 數據集的知識圖譜的構建方法[37]為數據集構建知識圖譜,兩個數據集的具體數據如表1中所示:

表1 數據集統計表

隨機選擇每個用戶80%的交互歷史構成訓練集,剩余的作為測試集。從訓練集中,隨機選擇10%的交互作為驗證集優化超參數。對于每個觀察到的用戶項交互,將其視為一個正實例,然后執行負抽樣策略,將其與用戶以前未選擇的負項配對。

4.1.2 評價標準

對于測試集中的每個用戶,將未與用戶交互的項視為負項,每個方法輸出用戶對所有項目(除了訓練集中的正項)的偏好得分。隨機選擇20%的交互作為測試的有效值,其余的交互作為訓練。為了評價top?k推薦和偏好排名的有效性,采用兩個常用的評價指標[38?39]:recall@k和歸一化折損累計增益(Normalized Discounted Cumulative Gain,NDCG)ndcg@k。公式表示為:

其中TP@k表示真正例,FN@k表示假負例(False Negative)。

其中

reli指第i個結果的真實相關性分數。

IDCG(IdealDCG)為理想的DCG。|REL|表示結果按照真實相關性從大到小排序,取前k個結果,k默認值為20。

4.1.3 基線

將MKGAT 模型與一些較高效的基線進行比較,包括基于FM(Factorization Machines)的方法(Neural Factorization Machines,NFM)、基于KG 的方法(CKE、KGAT)、多模態方法(MMGCN、MKGAT)。

神經分解機(NFM)[40]是最先進的因子分解機器(FM),它將FM 納入神經網絡。特別是,本文按照基于遞歸神經網絡的時間異構反饋推薦[4]中的建議,在輸入特性上使用一個隱藏層。

基于嵌入的協同知識(Collaborative Knowledge Base Embedding,CKE)[19]將CF 與結構化知識、文本知識和可視化知識結合在統一的推薦框架中,本文將CKE實現為CF+結構化知識模塊。

知識圖譜注意力網絡(Knowledge Graph Attention Network,KGAT)[9]首先應用TransR模型[13]獲得實體的初始表示, 然后從實體本身向外運行實體傳播。因此用戶表示和項表示可以利用相應的鄰居信息。

多模態圖卷積網絡(Multi?modal Graph Convolu‐tion Network,MMGCN)[41]是一種多模式模型,考慮每個模式的用戶?項目交互。MMGCN 為每個模態構建用戶?項目二分圖,然后使用GCN 對每個二分圖進行訓練,合并不同模態的節點信息。

多模態知識圖譜注意力網絡(Multi?modal Knowledge Graphs Attention Network,MKGAT)[28]利用Resnet50模型和SIF模型分別將圖像和文本轉化為相應的向量,然后使用transE 模型學習知識圖譜的結構化表示。其與KGAT 類似,都是從實體本身向外運行實體傳播,將相鄰實體的信息進行聚合。

4.1.4 參數設置

本文使用Xavier初始化器[42]初始化模型參數,并使用Adam優化器[34]優化模型。mini?batch大小和學習率分別在[1024;5120;10240]和[0∶0001;0∶0005;0∶001]中選取。對于NFM 和KGAT,丟失率在{0.0,0.1,…, 0.8}中調整。對于MKGAT,其視覺實體使用Resnet 最后一層隱藏層的2048 維特征,同時文本實體使用word2vec 訓練300 維的詞嵌入,并使用SIF 算法生成相應的句子向量。本文的VMKGAT微調了ViLBERT的最后三個層,并將負抽樣比設為4。MKGAT 和VMKGAT的所有實體維度設置為64。

4.2 實驗結果

4.2.1 模型表現

所有模型的實驗結果如表2 所示。VMKGAT 模型(其中的模式包括結構化知識、文本和視覺;模型深度設置為2;組合層設置為Add 聚合層)的recall和ndcg在兩個數據集上都優于所有基線。

表2 不同推薦模型的總體表現

VMKGAT 始終在兩個數據集上最佳。特別是VMKGAT 在英文新聞數據集和中文新聞數據集中分別比最強的基于KG 的單模態基線KGAT在ndcg@20上提高了13.11%和13.23%,在recall@20 上提高了12.98%和11.73%,由此驗證了多模式知識圖譜的有效性。結合表2 和表3,在引入多模態實體的情況下,本方法比其他基于KG的方法有更大的改進。這驗證了本文方法比其他方法對多模態信息更友好。

表3 推薦的性能:不同模式對英語新聞數據集的影響

在所有的比較方法中,基于KG 的方法(即CKE和KGAT)在兩個數據集上優于基于CF 的方法(即NFM),這表明使用KG確實大大提高了推薦性能。

比較兩種基于KG 的方法CKE 和KGAT 的性能,發現KGAT在兩種指標上都比CKE有更好的性能,由此可見圖卷積網絡在推薦系統中的強大作用。

值得一提的是,VMKGAT 在兩個數據集上的指標都比MKGAT 模型提高了2%到3%。這表明本文方法可以更加合理地利用多模態信息。

4.2.2 多模態特征的影響

為了探討不同模式的影響,比較了KGAT、MKGAT 和VMKGAT 模型在英文新聞數據集上不同模式的結果。性能對比結果見表3。

KGAT、MKGAT 和VMKGAT 多模態特征的方法普遍優于單模態特征的方法,如表3所示。

VMKGAT 模型本質上也是一種基于KG 的方法,與MKGAT相比,VMKGAT模型可以更好地利用圖像信息以提高推薦性能。與其他基于KG 的方法相比,當引入多模態信息時,方法會有更大的改進。這是因為在訓練知識圖譜嵌入時,VMKGAT 能更好地將圖像實體的信息聚合成item實體,如表3所示。

4.2.3 模型深度的影響

改變VMKGAT 的深度(L)研究多個嵌入傳播層的使用效率。具體來說,在{1,2,3,4}范圍內搜索層數,VMKGAT1 表示使用一層模型,將結果匯總在表4中,有以下觀察結果:

表4 嵌入傳播層數的影響

增加VMKGAT 深度能夠大幅提升性能。顯然,VMKGAT2 和 VMKGAT3 在所有方面都比VMKGAT1 實現了持續的改進。這種改進歸功于對用戶、物品和實體之間的高階關系的有效建模,這些關系分別由二階連接和三階連接承載。

在VMKGAT3 上再疊加一層,觀察到VMKGAT4只實現了邊際改進。這表明考慮實體之間的三階關系就足以捕獲協作信號。同時可以發現,當兩個數據集中的層數大于3時,評價指標會下降。即當層的數量增加到某個級別時,評估指標就會下降。這可能是數據的稀疏性導致的過擬合。

聯合分析表2 和表4,多數情況下,VMKGAT1 始終優于其他基線。再次驗證了該方法的有效性,經驗表明該方法能較好地模擬一階關系。

4.2.4 聚合層的影響

本節研究聚合層在模型中的作用,使用兩種類型的聚合層,即Add層和Concatenate層來學習知識圖譜的嵌入。模型深度固定為2。實驗結果如表5 所示,CONCAT 標記的層連接方法優于ADD 標記的層連接方法。一個可能的原因是,每個實體的相鄰實體包含文本和可視化信息,這些信息與知識圖中的一般實體是異構的,它們不在同一個語義空間中。ADD 實際上是一種元素與元素的特征交互方法,適用于相同語義空間中的特征。因為在相同的語義空間中,每個特征的每個維度的含義相同,所以把每個特征的每個維度相加是有意義的。而CONCAT 是特征之間維度的擴展,更適合不同語義空間中特征的交互。

表5 聚合層的影響

5 結論

本文提出了一種基于知識圖譜的推薦模型——結合ViLBET 的多模態知識圖譜注意網絡(VMKGAT),在新聞推薦系統中引入了ViLBERT 多模態預訓練模型和多模態知識圖譜組合的模型。VMKGAT 模型通過學習實體之間的推理關系,將每個實體的相鄰實體信息聚合到自身,可以更好地利用多模態實體信息。在兩個真實數據集上的大量實驗證明了VMKGAT模型的合理性和有效性。

本文對多模態知識圖譜在推薦系統中的應用進行了初步探索,并在此基礎上進行了進一步的研究。未來在多模態知識圖譜的框架下,探索更多的多模態融合方式。

猜你喜歡
三元組圖譜實體
基于帶噪聲數據集的強魯棒性隱含三元組質檢算法*
特征標三元組的本原誘導子
繪一張成長圖譜
前海自貿區:金融服務實體
關于余撓三元組的periodic-模
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
補腎強身片UPLC指紋圖譜
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
主動對接你思維的知識圖譜
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合