?

多任務學習的論文被引量預測

2022-12-06 01:56張德秀張思凡程雨軒史春雨
關鍵詞:多任務差值神經網絡

張德秀 ,毛 煜 ,張思凡 ,程雨軒 ,史春雨

(1.閩南師范大學計算機學院,福建漳州 363000;2.阿里巴巴AE技術部推薦算法團隊,浙江杭州 310000)

1 研究背景

近年,隨著教育水平的快速提高,論文學術資源呈指數型增長趨勢,其論文質量也參差不齊,如何從這些海量的學術資源中獲取高質量、有價值、具有潛在影響力的論文成為新的挑戰.對于科研人員來說,優質的學習資源能提供科學有效的依據,使科研人員盡快掌握科研前沿動態、提高學習效率和加速科研成果的研究進度[1].

對于學術論文,論文主題越熱門,那么該論文的影響力就越大,引用量也越多.然而隨著逐年論文發表量的疊加,論文語料庫也呈爆炸式增長,導致論文主題-詞的概率分布離散化,無法更精確表達論文的主題特征.同時對于領域專家來說,其論文通常容易被關注,專家權威性越高,被關注度就越高,論文被引的概率也越高.但是同一作者在不同的研究領域權威性是不同的,當作者跨領域發表論文時,先前的權威性將不足以衡量其在新領域的權威.傳統的論文引用量預測方法不能細粒度的對這種作者特性進行整體分析,這給論文特征表示方向的研究帶來了新的挑戰[2].因此,提出一種能準確有效預測論文引用量的方法具有重要的研究意義.如今,論文主題的不斷動態演變、論文語料庫的不斷更新、主題流行度以及論文作者權威性的變動、論文的文本特征、作者相關特征、論文發表的期刊以及它們之間的關系網等諸多動態因素都對論文引用量預測造成了很大的困難.針對目前論文引用預測出現的這些問題,本文考慮多方面的因素,提出一種基于多任務學習的論文影響力預測模型.

2 國內外研究現狀

對于論文引用量預測,目前學術界提出了一些相關方法,例如被引量、H-Index、g-Index、影響因子等,其中被引量是學術界廣泛應用的一項學術影響力評價指標,H-Index、g-Index、影響因子是基于被引量延伸出的學術影響力預測方法,這些方法計算簡單且具有普適性的優點,但其缺點在于引用數量可被人為操控,導致無法通過引用量準確客觀的評估學術影響力.并且這些方法只能在學術成果發表一段時間后的論文引用量,無法及時反應當前的學術水平.除了使用基于引用量的方法之外,傳統的方法還有網頁排序算法HITS和PageRank[3],這兩種方法考慮了學術網絡的不同結構,其優勢在于能充分利用學術數據和關系,從網絡連接的角度來對論文引用量的預測.但該排序方法只能對作者整體權威性與影響力進行了粗粒度的表示,而對于論文主題資源無法充分表達,造成特定作者對于不同主題的權威性效果欠佳,同時該方法無法得出新論文的引用量評估,存在新論文引用量冷啟動問題[4].針對該問題,Chakraborty等[5]使用支持向量機(support vector machine,SVM)來進行論文引用預測,該方法首先將論文進行分類,然后使用支持向量回歸方法對引用量呈增加趨勢的論文引用進行預測.Shen等[6]首先使用論文發表之后信息作為訓練集,最后通過自增強泊松過程方法進行論文引用量的預測,利用同樣的訓練方法,Xiao等[7]使用自觸發模型預測論文引用量.雖然這些預測方法取得了一定的效果,但是局限于傳統方法自身的缺點,這些預測方法效果并不理想.

隨著機器學習在各個領域的廣泛使用,研究者們也將該方法運用到論文引用量預測領域中.Abrishami等[8]根據論文以往的被引量預測未來的引用量,在預測準確性上取得了顯著的效果.Pobiedina等[9]提出了一種基于頻繁圖模式的引用量預測方法,首先構建引文網絡,然后在該網絡中引入頻繁圖模式挖掘方法,提高了引用量預測的準確性.針對論文、作者以及研究領域引用網絡中的鏈接預測問題,Daud 等[10]通過樸素貝葉斯、決策樹、支持向量機對引文網絡中的相互鏈接預測進行分析對比.Bütün等[11]通過每位科研人員發表論文的被引用次數,以預測該論文未來的影響;將科研人員的未來被引次數預測問題形式化為動態引文網絡的鏈接預測問題,基于不同的數量變化趨勢引入動態指標,然后使用各節點的動態臨近度量來預測被引次數.這些研究方法通過論文被引量和論文本身的特征來對論文未來引用量進行預測,雖取得了一些成效,但并未將論文自身特征和作者與論文關系、論文與期刊的關系等進行有效融合,使得預測模型的性能有待進一步的提高.

近年,由于多任務學習方法不僅能有效優化多個目標函數,得出最優解,且能通過輔助任務改善自身任務的學習性能,從而提高模型的泛化能力,使該方法成為新的研究熱點.本文為了解決論文建模表示困難的挑戰,提出一種基于多任務學習的論文影響力預測模型,模型首先預處理論文相關數據,獲取論文的網絡拓撲特征和文本特征,通過一個帶有注意力機制的圖卷積神經網絡(graph convolutional network,GCN)和Transformer[12]分別處理這兩種特征.然后,為了使模型能夠獲取對于被引量更重要的內在特征,在預測目標論文被引量的基礎上,通過采樣對比論文樣本,引入額外的論文被引量差值預測任務.這兩個任務共享部分網絡架構,且針對后者,設計了對應的交互網絡提取中間特征從而完成預測.

3 基于多任務學習的論文被引量預測模型

為了讓神經網絡學習到更好的論文表示,以精準地預測論文的被引量,提出基于多任務學習的框架.本節將從以下四個方面進行介紹:模型預處理、論文被引量預測、論文被引量差值預測和聯合學習.

3.1 模型預處理

針對待預測的論文x,首先通過數據預處理構建它的輸入特征,包含網絡拓撲特征Gx和文本特征Dx.其中,文本特征Dx可以通過論文x相關文本(標題、摘要)的分布式表示方法獲取,例如Doc2vec[13];網絡拓撲特征Gx=(E,R,T)主要描述論文實體與其他類實體之間的相互關系,例如論文x發表于某期刊v,其中E、R、T分別表示實體集合、關系集合、邊集合.形式化地,本文定義了如表1所示的實體類型和關系類型.

表1 實體和關系類型Tab.1 Entity and relationship types

以上的方式將科研論文及相關的實體通過不同類型的關系構成一個異構網絡拓撲結構G(類似于知識圖譜),每個論文節點及其鄰居構成其網絡拓撲特征.對于論文x,在進行預測時,本文在G中抽取以x為中心節點的k階子圖作為x的網絡拓撲特征Gx.為了在神經網絡的輸入表示中初步具備網絡拓撲特征,本文使用TransR[14]算法首先對G進行預處理得到每個節點及關系的初始表示.

對于論文x,為了讓模型能夠獲取到對預測被被引量更全面的潛在表示,本模型引入對比論文y來進行多任務學習,模型的整體架構圖如圖1 所示.其中L1表示神經網絡預測x被引量的損失,L2是額外的多任務損失,表示預測x與y被引量之差的損失.L2通過神經網絡處理x與y的交互實現,而并不單是通過兩者的最終表示,這樣會讓模型能夠在每個階段都受到多任務學習的引導,進而產生更加精準、更加魯棒性的預測結果.

圖1 基于多任務學習的被引量預測模型的整體框架Fig.1 The framework of a citation prediction model based on multi-task learning

3.2 論文被引量預測

對于論文x,模型首先通過網絡拓撲特征Gx和文本特征Dx預測其被引量.具體地,分別使用圖卷積神經網絡GCN 和Transformer 處理Gx和Dx.Gx作為關于x的k階多關系異構圖,其中每個節點和關系的初始化表示通過TransR獲得,后續處理時,它們的更新遵循GCN的迭代消息傳遞模式.其第k+1層的表示由第k的表示通過注意力消息傳遞方式計算得到.

整體來說,針對目標節點u的第k層表示,其第k+1 層的表示由和其鄰居節點v的表示通過轉換加和得到,分別表示兩者的轉換矩陣.N(u)表示節點u的鄰居節點-關系對集合,表示節點u和其鄰居節點-關系對(v,r)的注意力得分,它決定了在消息傳遞時,周圍鄰居被增強或者抑制的程度,通過這種方式增強有益信息傳遞,并削弱噪聲信息的影響.具體地如式(2)和式(3)所示.

式(3)表示首先通過鄰居節點-關系對及目標節點的表示向量計算注意力得分,并通過softmax進行歸一化.其中表示注意力計算時的轉移矩陣.通過以上的方式,處理x的網絡拓撲結構,在經過l層的GCN迭代之后,其網絡特征表示為所有節點表示的平均.具體如式(4)所示.

對于文本特征Dx,本文使用Transformer 進行處理.Transformer 使用多頭的self-attention 處理序列輸入.具體如式(5)所示.

其中:Q、K、V分別表示查詢、鍵、值,本文計算目標被引量時,三者都為序列中單詞的表示.同樣地,經過l層的處理之后,通過平均池化得到論文x的文本表示特征.論文x的最終表示X及其被引量預測損失通過式(6)和式(7)計算.

該損失為均方誤差損失,FF1為前饋神經網絡,用于將論文表示X計算得到預測值,lx為真實被引量,n為樣本總量.

3.3 論文被引量差值預測

為了使模型能夠獲取對于被引量更重要的特征,同時增強模型的泛化能力,本文在預測目標論文x被引量的基礎上,引入論文被引量差值預測的額外任務.具體思路是:對于目標論文x,在數據集中采樣對比樣本y,通過神經網絡的中間過程計算兩者的交互特征,并基于此預測兩者的被引量差值.這樣,被引量的差距預測能夠有效指導神經網絡的中間計算過程,進而影響被引量預測模型,使其具有更高的預測能力和泛化性.

對于x、y的網絡特征Gx、Gy,使用GCN進行處理,進而能夠獲得它們在每層的表示.對于文本特征,除了使用Transformer分別處理得到文本表示之外,本文通過它們之間的交互來增強表示,如圖2所示.

圖2 文本特征融合示意圖Fig.2 The text feature fusion

將3.2 節中經Transformer 處理后的文本表示矩陣分別表示為(用于后續論文被引量預測),之后計算兩者之間的交互.具體來說,在式(5)所示的self-attention 中,將Q進行彼此替換,其他設置保持不變,這樣相當于對x、y的文本進行逐詞對比,期望獲取文本差異對于被引量的影響因素.基于此,得到兩者對應的交互表示,進而將兩者進行平均池化并加和得到x、y在第k層的文本交互表示Dk.綜上,論文被引量差值的特征表示可通過式(8)計算為:

類似地,其損失函數也可通過式(9)均方誤差損失函數計算為:

其中:lx、ly分別表示x、y的真實被引量;m表示總的對比樣本對數;FF2為計算被引量差值的前饋神經網絡.

3.4 聯合學習

基于論文被引量預測和被引量差值預測的損失,設計了如下的聯合損失函數來進行統一的多任務聯合訓練:

其中,λ是用于權衡模型對于被引量預測和被引量差值預測損失的權重.

4 實驗結果與分析

4.1 實驗數據集

通過網絡爬蟲采集了2010—2019 年間在交通領域30 本期刊上發表的相關論文,包含論文標題、摘要、作者、發表地、機構、年份和實際被引量等,相關數據統計如表2所示.在進行實驗時,2010—2018年的論文作為訓練集,2019年度發表的論文作為測試集.

表2 數據集相關統計Tab.2 Dataset related statistics

4.2 對比模型與實驗參數設置

為了驗證本文基于多任務學習模型的有效性,實驗設置了如下的神經網絡對比模型.

神經網絡模型(NN)[15].通過帶有隱藏層的前饋神經網絡處理論文的相關特征,最后相加融合來進行論文被引量預測.

基于神經網絡的被引量預測(NNCP)[8].一種基于編碼-解碼框架的深度神經網絡模型,其將論文發表后某個時間段內的被引量作為輸入,之后某時間段內的被引量作為輸出.

基于圖卷積嵌入與特征交叉(GCN-FC)[16].一種考慮論文關鍵詞、作者、機構和國家等相關因素,使用GCN進行特征提取,并利用循環神經網絡與注意力機制來挖掘被引量與論文特征之間的關聯.

混合LSTM 注意力模型(Hy-LSTM-Att)[17].構建論文相關的異構數據,包含圖結構、時序數值和文本等,初始化后通過雙向注意力LSTM處理,將最終的表示通過前饋網絡計算預測被引量.

在實驗過程中,首先將圖結構通過TransR 方法進行預處理,得到128維的向量表示;并將論文的標題和摘要文本通過Doc2vec處理,也表示為128 維的向量.從總圖結構G中抽取目標論文的k階子圖時,k默認設置為3.在進行訓練時,對于目標論文x,隨機采樣同一年度發表的論文y作為對比進行多任務學習;模型最大層數l設置為5,每層嵌入的維度都默認設置為128,模型使用學習率為0.001 5的Adam算法[18]進行優化,最大迭代次數設置為15.在整體的損失函數中,權重λ被設置為0.2.模型測試時,僅僅使用論文被引量預測部分,論文被引量差別預測部分不進行計算.

4.3 評價指標

本文使用回歸任務常用的均方誤差(mean square error,MSE)和平均絕對誤差(mean absolute error,MAE)作為主要評價指標,它們都用來衡量預測值與真實值之間的差距,MSE 與MAE 越小,說明模型的預測更準確.它們的計算方式如式(11)和式(12)所示.

其中:E(X)表示隨機變量X的數學期望;r>0表示兩個隨機變量呈正相關,且絕對值越大,說明其相關程度越高.

4.4 模型對比結果

不同模型在各個指標上的得到的結果如表3所示.可以看出,提出的基于多任務學習的模型取得了最好的預測效果.其中NN模型表現最差,MSE與MAE較本文模型分別差34.26和1.65,這是因為它僅通過簡單的神經網絡處理原始論文數據;NNCP、GCN-FC 和Hy-LSTM-Att 都取得了良好的效果,這是由于它們都挖掘了論文相關數據的對應特征,并設計了特定的方法進行建模;在之前最優模型Hy-LSTM-Att 的基礎上,本文的模型在三個指標上分別獲得了3.49、0.44和0.02的提升,這說明本模型的先進性,顯示出通過挖掘論文預測相關任務并進行多任務聯合學習對于提升論文被引量預測的潛力.

表3 各模型的性能對比Tab.3 Performance comparison of each model

4.5 消融實驗

為了驗證模型中各個模塊的作用,進行了消融實驗.實驗結果如表4所示(w/o表示消融某個模塊).

表4 各模塊的消融實驗結果Tab.4 Ablation experiment results of each module

其中w/o L2表示模型去掉論文被引量差值預測部分.從顯示的結果可以看出,隨著論文被引量差值預測部分的去除,各項指標都會大大降低.這表明論文被引量差值預測在整個模型中具有積極的作用,其原因在于該差值可以有效地挖掘文獻之間的隱性關聯特征,并且可以對模型中神經網絡的中間計算過程進行正確的引導.

w/o Inter則表示在論文被引量差值預測部分,去掉論文對的交互表示計算,僅保留本身的Transformer 計算.由表4 可知,該模塊也會影響模型的性能,但是較L2的程度低,這是因為Inter 事實上是L2計算的一部分,并不能完全體現被引量差值的功能,因此對模型的影響力相較L2部分較弱一些.

另外,w/o GCN 和w/o GCN-Att分別表示去掉整個GCN 計算和去掉GCN 計算中的注意力機制.前者在預測時僅僅使用TransR 的嵌入結果,從結果可以看出,去掉整個GCN 計算后各項指標均大幅下降.這表明圖卷積神經網絡對模型的預測結果具有積極的作用.而僅僅去掉GCN 計算中的注意力機制雖然影響效果不如去掉整個GCN 計算模塊,但還是會產生一定的影響.這表明模型中注意力機制的引入能夠很好地挖掘出被引量與論文特征之間的關聯,從而更好的對文獻被引量進行預測.

5 結語

基于多任務學習的思想,針對論文被引量預測任務,提出了額外的被引量差值預測方法來增強模型的建模能力,進而提升了模型的預測性能和泛化性.在多任務學習中,兩個任務共享部分模型架構,對于被引量差值預測,使用額外的神經網絡進行建模,使得模型整體上既有耦合的部分,又有分散的部分.實驗結果證明本模型取得了優異的性能,且本文提出的模塊對于預測結果都具有積極作用.這顯示通過構造相關的任務,并使用多任務學習框架來提升論文被引量預測的巨大潛力.

猜你喜歡
多任務差值神經網絡
數字時代的注意困境:媒體多任務的視角*
基于遞歸模糊神經網絡的風電平滑控制策略
結合自監督學習的多任務文本語義匹配方法
紅細胞壓積與白蛋白差值在繼發性腹腔感染患者病程中的變化
面向多任務的無人系統通信及控制系統設計與實現
神經網絡抑制無線通信干擾探究
基于神經網絡的中小學生情感分析
關注
清豐縣新舊氣象觀測站氣溫資料對比分析
基于Q-Learning算法和神經網絡的飛艇控制
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合