?

基于隨機游走和長短期記憶神經網絡的知識表示學習模型的設計

2023-02-27 11:13姜曉全
遼東學院學報(自然科學版) 2023年4期
關鍵詞:度數圖譜實體

姜曉全

(遼東學院 信息工程學院,遼寧 丹東 118003)

知識表示學習是將知識圖譜中的實體和關系轉化為一種低維稠密的向量表示形式,這種向量的表示形式本身具有強大的語義,可以被直接應用到其他任務中[1-4]。目前常見的知識表示學習模型主要基于“翻譯”模型,包括TransE[5]模型及在此基礎上演化而來的TransR[6]、TransH[7]和TransD[8]等模型。這一類模型的核心思想是將知識圖譜中的實體和關系抽象成一個三元組(E1,R,E2),通過關系R將E1翻譯成E2,即E2=E1+R,并通過訓練樣本不斷調整E1、E2和R的表示向量,使上述等式盡可能成立。但這類模型每次只能針對某一特定的三元組進行訓練,而忽略了知識圖譜中其他實體和關系對三元組中實體和關系的影響,進而導致模型訓練得到的實體和關系的表示向量語義不夠充分,影響它在實際應用中的效果。

為解決上述問題,知識表示學習模型借鑒網絡表示學習理論,通過設計隨機游走算法對網絡節點進行采樣并形成序列樣本,再利用Word2Vec等神經網絡模型對序列樣本進行訓練學習,從而得到網絡節點的表示向量[9-11]。這種方法充分考慮了網絡結構對表示學習過程的影響,可有效提升表示向量的語義效果。為此,本研究基于隨機游走和長短期記憶神經網絡(long short-term memory,LSTM)設計了一種知識表示學習模型。

1 知識表示學習模型的設計

1.1 知識圖譜網絡節點的采樣

1.1.1 知識圖譜網絡的重構

本文所建模型首先需要對知識圖譜網絡進行重構,目的是在不破壞原有網絡結構的基礎上將關系由邊轉化為節點,使重構后的知識圖譜網絡更加接近一般網絡的結構。重構過程如圖1所示。

1.1.2 面向重構后的知識圖譜網絡的隨機游走策略

由于重構后的知識圖譜網絡包含實體和關系2種節點,并具有不同的網絡結構屬性,因此,本文設計2種隨機游走策略。

1)當前節點為實體節點的隨機游走策略(圖2)

由圖2可知,當前節點為實體節點S1,它的下一個節點可能為下述3種情況:

a)回到上一個關系節點,即實體節點S1回到關系節點R2;

b)選擇另一個關系節點,即實體節點S1到關系節點R1;

c)選擇另一個與之連接的實體節點,即實體節點S1到實體節點S2。

第1種情況在知識圖譜網絡的隨機游走中是不允許的,因為這種游走沒有任何實際意義,節點轉移參數代表隨機游走中從當前節點跳轉到某一個節點的概率,所以節點轉移參數α設置為0;第2種情況為理想情況,可將α設置為1;第3種情況并不是一種理想的情況,隨機游走生成的節點序列最好是“實體-關系-實體”的形式,所以將α設置為1/q,其中q為超參數,可自行設定。本文將q設置為一個較大的值,讓這種情況出現的概率減小。

第1種隨機游走策略aq(t,x)的數學表達式為

(2)

式中:t為當前節點的上一個節點,x為當前節點可以選擇的下一個節點,dtx為從上一個節點t到下一個節點x的最短距離,dtx的取值只可能是{0,1,2}。

2)當前節點為關系節點的隨機游走策略(圖3)

由圖3可知,當前節點為關系節點R。它的下一個節點可能為下述3種情況:

a)回到上一個實體節點,即關系節點R回到實體節點S1;

b)選擇一個與上一個實體節點存在關系的實體節點,即關系節點R到實體節點S2;

c)選擇一個與上一個實體節點不存在關系的實體節點,即關系節點R到實體節點S3。

第1種情況是不允許的,因為這種隨機游走沒有任何實際意義,所以α設置為0;第2種情況是理想情況,因而α設置為1;第3種情況并不是一種理想的情況,因為當前關系節點的上一個和下一個實體節點不存在連接關系,這樣形成的“實體-關系-實體”序列沒有意義,所以將α設置為1/p,其中p為超參數,可自行設定,本文將p設置為一個較大的值,讓這種情況出現的概率減小。

第2種隨機游走策略αq(t,x)的數學表達式為

(3)

1.1.3 基于MPI的節點采樣優化算法的實現

本文針對知識圖譜網絡的特殊性,使用MPI并行計算框架,根據節點的度數動態設置節點采樣次數,優化隨機游走效果。該算法不僅可以增加知識圖譜網絡中影響力大的節點的采樣次數,還具有高并行性。采樣優化算法步驟如下:

1)使用MPI框架在機器上開啟多個進程。

2)每個進程先計算網絡中每個節點的度數,并找到最大度數。

3)每個進程針對不同度數的節點進行下列2種不同的遍歷:

a)如果該節點度數大于設定的閾值,則按照最大遍歷次數進行遍歷;

b)如果該節點度數小于設定的閾值,則按照比例計算需要遍歷的次數并進行遍歷。

4)所有進程完成采樣工作后匯總形成一組序列樣本。

優化算法的數學表達式為

(4)

式中:Nx為x節點的采樣次數,Nmax為設定的最大采樣次數,Dx為x節點的度數,Dmax為網絡中最大的節點度數,T為度數的閾值。

1.2 使用LSTM對序列樣本進行訓練

本文使用單向LSTM和雙向LSTM對序列樣本進行訓練。相比于單向LSTM,雙向LSTM更適合知識表示學習,因為知識圖譜中的實體和關系并不遵從某個單一方向,這與一般的序列學習任務不同,雙向LSTM可以更好地對實體和關系的序列樣本進行建模,從而訓練得到語義更充分的表示向量。單向LSTM和雙向LSTM訓練過程如圖4和圖5所示。

由圖4可知,單向LSTM只包含一個神經網絡,訓練是從序列樣本中的第一個節點開始,到最后一個節點結束。

由圖5可知,雙向LSTM包含2個神經網絡:一個網絡訓練時一般從序列樣本第一個節點開始到最后一個節點結束;另一個網絡訓練時從最后一個節點開始到第一個節點結束。

2 實驗與分析

2.1 評價指標

本文研究重點關注表示向量語義的充分性,因而可將知識圖譜中某個實體(或關系)的實體相似(或關系相似)的召回率R作為評價指標,R的計算公式為

(5)

式中:N為排序后選擇節點的總數量;Nsim為在N個節點中與當前節點具備相似性的節點的數量,N的取值可根據實際需要進行設定。

在計算召回率時,首先計算當前實體節點與所有實體節點(或當前關系節點和所有關系節點)表示向量的空間距離,然后按照距離數值大小進行排序并計算前N個節點中與當前節點具備相似性的節點所占的比例。例如,在排名前N個節點中有n個與當前節點具備相似性的節點,則當前節點的相似節點的召回率為n/N。

2.2 數據集設定

本文選擇FB15K(1)FB15K數據集地址:https:∥paperswithcode.com/dataset/fb15k。和WN18(2)WN18數據集地址:https:∥paperswithcode.com/dataset/wn18。2個知識圖譜作為實驗的數據集。其中,FB15K是Google公司發布的知識圖譜集,約包含上萬個實體和上千個關系;WN18是WordNet發布的知識圖譜集,約包含上千個實體和18個關系。

2.3 實驗測試及結果分析

本文主要驗證本文所提模型相較于TransE基準模型訓練得到的表示向量是否具備更充分的語義并能有效提升訓練的效率。

2.3.1 模型表示向量語義充分性測試

在FB15K和WN18 2個數據集上進行表示向量語義充分性測試,超參數p和q分別設置為10和100,召回率測試中選取排序后節點數量N設置為10,召回率測試結果如圖6和圖7所示。

由圖6和圖7可知:無論是單向LSTM還是雙向LSTM均取得了比基準模型TransE更好的效果;雙向LSTM訓練得到的表示向量相比于單向LSTM訓練得到的表示向量具有更加充分的語義,這與本文之前的結論一致;應用本文所提算法,單向LSTM和雙向LSTM的訓練效果均得到了一定提升。

2.3.2 模型訓練效率測試

本文在FB15K和WN18 2個數據集上基于MPI計算框架對單進程訓練和多進程(4個進程)并行訓練進行測試實驗,記錄訓練所需時間,實驗結果見表3。

由表1可知,基于MPI計算框架實現的并行訓練方法相比于普通的單進程訓練可極大地提升模型的訓練效率。

表1 單進程訓練和多進程并行訓練實驗結果 單位:s

3 結語

本文提出了一種基于隨機游走和長短期記憶神經網絡的知識表示學習模型,該模型相比于目前常見的知識表示學習模型更加關注實體和關系節點在網絡中所在位置。實驗結果表明,本文提出的模型不僅可以訓練得到語義更充分的表示向量,并可有效提升模型訓練的效率。

猜你喜歡
度數圖譜實體
眼鏡的度數是如何得出的
繪一張成長圖譜
圖形中角的度數
前海自貿區:金融服務實體
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
隱形眼鏡度數換算
補腎強身片UPLC指紋圖譜
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
主動對接你思維的知識圖譜
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合