?

子圖增強的實時同名消歧

2024-03-26 02:39韓天翼程欣宇張帆進
中文信息學報 2024年1期
關鍵詞:消歧同名子圖

韓天翼,程欣宇,張帆進,陳 波

(1.貴州大學 公共大數據國家重點實驗室,貴州 貴陽 550025;2.貴州大學 文本計算與認知智能教育部工程研究中心,貴州 貴陽 550025;3.清華大學 計算機科學與技術系,北京 100084)

0 引言

同名消歧旨在確定文獻中具有歧義的作者姓名的具體指代對象。隨著科技與信息產業的高速發展,各個領域的研究論文與專利發表數量急劇增加,導致了大量作者同名問題以及指代不明的情況。因此,針對同名作者的消歧成為確保谷歌學術(1)https://scholar.google.com/、中國知網(2)https://www.cnki.net/、AMiner(3)https://www.aminer.cn/等在線學術平臺正常運行的關鍵環節,消歧的準確性對專家發現、學術評估等相關下游任務具有重要意義。同名消歧屬于命名實體消歧的范疇[1],其消歧對象為具有歧義的作者姓名。盡管同名消歧問題已經研究了數十年[2-5],但目前還遠沒有徹底解決。這導致部分學者需要時常地向谷歌學術反饋消歧有誤的論文(4)https://harzing.com/blog/2017/02/web-of-science-to-be-robbed-of-10-years-of-citations-in-one-week,否則論文的統計指標(如被引用數等)會受到噪聲影響。

以往的同名消歧相關研究主要聚焦在冷啟動問題,即如何將一批具有相同作者姓名的論文劃分為多個歸屬于不同作者的論文簇[3-4,6]。該問題通常用于從零構建同名學者檔案。當前學術平臺經過長期運營已經建立起大量學者檔案。截止2023年3月,在線學術平臺AMiner從多個數據源累計整合了超過1億名專家學者的檔案和3.3億篇文獻,而且平均每個月約有75萬篇新論文入庫。學術平臺不僅需要收錄新增的論文,還需要將論文與現有平臺作者進行匹配關聯。然而,相同的姓名并不能代表唯一的作者,一篇新增文獻中的作者姓名可能對應到平臺中多位同名作者。如圖1所示,對于新論文中作者名“Yang Yang”,平臺已存在多位同名的作者檔案,實時同名消歧需要將新論文準確地分配給眾多同名候選作者中的正確作者。圖中候選作者1的中文姓名為“楊洋”,候選作者2的中文姓名為“楊陽”,兩位候選作者的已發表論文均含關鍵詞“graph neural network”,其中候選作者1的論文機構使用過“Zhejiang University”并與新論文的標題具有共現詞匯“Robust”,候選作者2的論文曾出現新論文的共同作者名“Lei Chen”,可以看到兩位候選作者與新論文均有較多的匹配信息,即使通過人工也很難有把握消歧準確。故如何充分利用論文與候選作者的信息以獲取更有判別力的消歧特征是一個難點。

圖1 實時同名消歧

隨著科研人數不斷增長,同名消歧問題變得越來越具有挑戰性。首先,像圖1中具有相同姓名且研究相同領域的作者逐漸增多,這將導致實時消歧任務變得愈發復雜。例如,AMiner中有超過6 000個名叫“Yang Yang”的學者,在清華大學就讀或就職過的名叫“楊洋”的學者已經超過40個。這使得不同候選作者之間易混淆的相似屬性增多。其次,僅使用語義作為特征的實時消歧方法很容易將論文誤分。例如,待消歧論文可能與多名候選作者在文章內容上語義相似度較高。在以往的實時同名消歧方法中普遍缺乏待消歧論文與候選作者間結構信息的挖掘與利用。然而,論文和作者的結構信息中可能蘊含著更豐富的匹配信息。例如,同一作者的不同論文的引文網絡結構可能類似。因此,本文嘗試通過引入子圖結構信息來進一步提升實時同名消歧任務的準確度。

傳統的同名消歧方法根據待消歧人名的屬性信息和文章內容設定具體規則來區分不同作者實體;冷啟動同名消歧方法主要利用文章本身內容與文章之間的共同作者、共同機構等結構信息將任務處理為聚類問題;而對于實時同名消歧,相關研究分為基于語義信息與基于結構信息兩類方法。在基于語義信息的方法中,一類方法通過特征工程提取出待消歧論文與候選作者檔案在標題、關鍵詞、機構等多方面的共同信息來進行消歧,另一類方法基于度量學習等有監督方法來學習論文與作者的嵌入向量以用于消歧;在基于結構信息的方法中,通常將所有候選作者及相關鄰居節點(如論文等)構建一張大圖,對于每篇新增的論文節點,均需要重構大圖并重新訓練嵌入向量。已有的實時同名消歧方法獲取結構信息的效率較低,所需要的計算開銷隨著大圖規模的擴大而逐步增長。

因此,本文旨在解決實時同名消歧任務中的兩個問題,一是如何設計一種高效的歸納式學習(Inductive Learning)的模型,能夠在每新增一篇待消歧論文時,直接獲得該文與各位同名候選學者之間的結構特征,同時考慮到學者在不同階段所研究的領域以及所處的機構可能存在的差異,要求模型能實現待消歧論文與候選學者之間的細粒度匹配;二是如何將語義與結構兩方面信息進行有效的融合,以實現對更復雜場景的實時消歧,并獲得更優秀的消歧效果。本文提出了子圖結構增強的實時同名消歧模型RND-all(Real-time Name Disambiguation Integrating All The Information),首先分別對待消歧論文和候選作者構建自我中心網絡(Ego Network),利用圖注意力網絡對中心節點與鄰居節點特征進行加權聚合來捕獲局部圖的結構信息,然后對論文子圖與作者子圖進行細粒度交互,并采用徑向基核函數(Radio Basis Function Kernel,RBF)計算待分配論文與候選作者的圖相關性特征,最后,通過集成學習的方法將結構信息與語義信息進行融合。本文所提模型在WhoIsWho實時同名消歧數據集中取得最好結果,相比最優的基線方法CONNA[7]在HR@1、HR@3和MRR上分別提高3.99%、1.24%和2.5%。RND-all在同名消歧基準WhoIsWho實時消歧任務測試集上效果目前排名第一(5)截至2023年3月25日,RND-all在WhoIsWho實時同名消歧子任務排行榜上排名第一已持續1個月。詳見http://whoiswho.biendata.xyz/#/。

本文組織結構安排如下: 第1節介紹同名消歧以及圖神經網絡的相關工作;第2節提出實時同名消歧的相關定義;第3節和第4節介紹端到端提取結構信息的框架和使用子圖增強的實時同名消歧模型;第5節為實驗結果分析;第6節總結全文。

1 相關工作

1.1 同名消歧研究

同名消歧問題主要分為兩個子問題進行研究,即冷啟動同名消歧與實時同名消歧。

冷啟動同名消歧對應于學術平臺創建初期,此時需要將收集的大量論文進行劃分,使得劃分后同一組內的論文屬于同一個現實作者,不同組的論文屬于不同的現實作者,故冷啟動消歧常定義為聚類問題。Huang等人[3]采用Blocking方法將具有同名作者的待消歧論文聚合為簇,之后使用支持向量機學習簇內各論文間的距離關系,最終利用DBSCAN對簇內論文進行聚類。Louppe等人[4]基于論文之間的相似度采用半監督的層次聚類進行消歧。Tang等人[8]通過待消歧論文間引用關系、共同作者名、共同會議名等信息構建五維消歧特征后利用隱馬爾可夫隨機域實現對不同作者的區分。Zhang等人[9]構建作者-作者、論文-作者、論文-論文三種圖,利用學習的圖嵌入向量進行聚類。陳晨等人[10]使用譜聚類對社會網絡中的人名聚類,并引入模塊度閾值作為網絡停止劃分的條件。Subramanian等人[11]將8個主流同名消歧數據集整理為S2AND數據集,并發現在此數據集下訓練的冷啟動同名消歧算法具有更好的泛化能力。

當前谷歌學術、AMiner等在線學術平臺已經建立起大量學者檔案,所面臨的最大挑戰是如何將姓名上具有歧義的新論文準確而又高效地分配給對應作者,即實時同名消歧。此任務需要依據新入庫的待消歧論文與已有的各個同名候選作者的相關特征做出分配判斷。Zhang等人[6]通過度量學習的方式得到論文與作者的嵌入向量,通過論文與各作者向量在表征空間的距離來確定所要分配的作者。Dong等人[12]利用作者與待分配論文之間共同機構、共同會議、共同作者等關系構建異質圖,并使用隨機游走將待消歧論文與候選作者表示為嵌入向量,Zhang等人[13]則預先使用門控循環單元(Gate Recurrent Unit,GRU)得到論文的語義嵌入向量,之后在論文與作者的關系網絡上使用隨機游走以捕獲結構特征,最后將論文與作者表示為低維稠密的向量用于實時消歧任務。Zhao[14]在KDD Cup提出使用特征工程構建文本特征搭配梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)的方法對論文做出分類預測。Chen等人[7]使用預訓練模型BERT[15]對待消歧論文以及候選作者每篇論文在各屬性下進行細粒度的相似度計算,將豐富的語義特征用于消歧。Li等人[16]則提出了統一冷啟動與實時消歧的方法,首先將共同作者名出現次數多的論文構建出高精確率的論文簇,再根據新增論文與各論文簇的語義相關性,按照合并作者節點的方式進行實時消歧。

可見,解決同名消歧的方法主要分為基于文獻語義特征的同名消歧和基于文獻結構特征的同名消歧。融合語義特征和結構特征的同名消歧方法具有較優的研究意義。

1.2 圖神經網絡

圖神經網絡(Graph Nerual Network,GNN)已被廣泛應用于社交網絡、化學分子結構、知識圖譜等拓撲結構的研究中,其核心思想是利用邊的信息對節點信息進行聚合從而生成新的節點表示。Niepert等人[17]通過將圖中的節點組織為序列并使用卷積網絡以獲得具有結構信息的節點表示,Kipf等人[18]基于空域與頻域的轉換關系提出圖卷積網絡(Graph Convolutional Networks,GCN),使用一階切比雪夫多項式實現空域卷積的效果。Velickovic等人[19]提出圖注意力網絡(Graph Attention Networks,GAT),采用注意力掩碼將注意力機制引入圖神經網絡模型,使得模型能夠準確靈活地計算鄰居節點之間的權重,并通過多頭的方式進一步提升模型的泛化能力。

本文針對實時同名消歧的特點,對待消歧論文與候選作者分別構建自我中心網絡,采用圖注意力網絡來聚合節點特征以獲取結構層面的信息。

2 相關概念與定義

定義1 論文一篇論文p由多個屬性構成,例如標題、摘要、作者姓名等,即p={x1,…,xF},xf∈p代表論文中第f種屬性。F指論文中屬性的個數。

定義2 作者一名作者a由該作者所發表的n篇論文組成,即a={p1,…,pn},其中所有論文均由多個屬性構成。

定義5 實時同名消歧給定一篇要對作者名na進行消歧的論文pna以及姓名na對應的候選作者集合Ana,假設pna中的作者名na所對應的正確作者a+∈Ana,其余作者a-∈Ana。則該問題需要學習一個評分函數Ψ,滿足,如式(1)、式(2)所示。

其中,函數Ψ的輸入為待消歧論文和任意候選作者,輸出一個實數的相似度得分,Ψ需滿足待消歧論文pna與正確作者的相似度得分大于pna與其他作者的相似度得分。最終會將待消歧論文分配給Ψ打分最高的作者。

3 子圖結構特征提取框架

本文提出一種端到端的子圖結構特征提取框架,用于計算待消歧論文與各候選作者的圖相關性特征??蚣苡砂幋a層、聚合層、交互層的子圖信息交互模塊和包含歸一化層和排序層的特征增強模塊組成??蚣苋鐖D2所示,黑色實心箭頭為特征生成過程,空心箭頭為訓練階段損失的傳播過程。

圖2 子圖結構特征提取框架

3.1 子圖信息交互模塊

子圖信息交互模塊用于獲取待消歧論文子圖與候選作者子圖之間的細粒度交互信息。此模塊首先通過編碼層對圖中各節點的特征進行初始化,然后在聚合層對各節點特征進行加權聚合與更新,最后在交互層獲取論文子圖與各作者子圖的相似度信息。

如圖3所示,P、A、O分別指論文節點、作者節點以及機構節點,圖中為待消歧論文p與一名候選作者a所構建的論文子圖Gp與作者子圖Ga。對論文子圖Gp,p的一階鄰居為論文中待消歧作者的機構名稱以及待消歧論文所引用的論文,考慮到無法假定p中其余作者姓名確定對應的真實作者,故p的一階鄰居中不含其余共同作者信息。p的高階鄰居為引用論文的作者的論文以及其機構名稱??紤]到距離待消歧論文越遠,數據噪聲越多,故最大擴展到三階鄰居。對作者子圖Ga,使用候選作者a的已發表論文作為a的一階鄰居,若已發表論文存在其余已經消歧完的共同作者,則該共同作者的論文和機構信息作為作者a的高階鄰居,同理,最大擴展到三階鄰居。子圖信息交互模塊通過對比待消歧論文子圖Gp與各個候選作者子圖集合GA={Ga1,Ga2,…,Gam}來捕捉待消歧論文與候選作者的結構信息。

圖3 待消歧論文子圖與候選作者子圖

編碼層首先對包含待消歧論文子圖以及各個候選作者子圖的圖G內各類節點特征進行初始化。對于圖中的論文和機構節點,模型提取各篇論文的標題、摘要、關鍵詞拼接為字符串s,以及提取單獨的機構名作為字符串o,兩類文本記作S=(s1,s2,…,sln)和O=(o1,o2,…,olm),隨后模塊利用學術論文預訓練模型OAG-BERT[20]對兩類文本進行編碼,得到嵌入向量矩陣XS=(xs1,xs2,…,xsln)和XO=(xo1,xo2,…,xolm),其中,ln、lm指圖G中論文與機構的數量,x∈Rd,d為編碼后特征維度。對于作者a={p1,p2,…,pn},則直接使用該作者已發表論文的嵌入向量的平均作為作者節點初始特征。

聚合層使用圖注意力網絡對待消歧論文子圖以及各個候選作者子圖進行相鄰節點間注意力互相關系數的計算以及子圖節點特征的更新。節點特征先由可訓練的共享權重矩陣W∈Rd×d進行線性變換,然后經θT∈R2d對自身與相鄰節點特征進行自注意力操作,最后經LeakyReLU計算出兩節點間的注意力相關性權重。為了便于不同節點間權重的比較與計算,使用softmax進行權重歸一化,節點i與相鄰節點j的注意力互相關系數αij,計算如式(3)所示,其中,||表示拼接操作。

(3)

節點i的鄰居節點特征同樣使用共享權重W進行變換,然后各節點根據對應的注意力互相關系數進行加權求和,通過非線性變換φ計算節點i的聚合特征,計算如式(4)所示。

(4)

GAT采用多頭注意力機制,通過集成多組參數下的聚合特征來增強模型表達的魯棒性。式(5)中Wk為第k組線性變換權重,αk代表第k組注意力互相關系數。

(5)

交互層對圖G中特征聚合后的論文子圖與各作者子圖進行細粒度交互??紤]到一位學者在不同時期的研究領域以及所處機構可能不同,則待消歧論文可能與正確作者僅有幾篇論文內容相似,所以交互層應該關注更細致的相似度匹配信息而不能將子圖粗化為一個向量。

交互層的輸入為待消歧論文子圖Gp與候選作者子圖集合GA={Ga1,Ga2,…,Gam},輸出為Gp與各候選作者子圖的相似度矩陣。在交互層中論文子圖與各作者子圖在設定的交互范圍內(如一階鄰域、全量節點)逐節點計算特征相似度。M表示Gp與其中一個作者子圖Ga的相似度矩陣,Mij為Gp第i個節點特征與Ga第j個節點特征的余弦相似度,若兩個節點特征信息相似,則相似度應接近1,若特征信息無關,相似度應接近0,若特征信息相關且相反,相似度應接近-1。圖4為待消歧論文子圖與正確作者及其他作者子圖的相似度矩陣,圖中取相似度矩陣的前15行和前15列的數據展示。發現在交互層中很少存在節點之間特征信息相關且相反的情況,圖4中最低的相似度為-0.02。白色代表相似度接近1,黑色代表相似度接近0,由圖可見,本文提出的子圖信息交互模塊能夠較準確地區分正確與其他作者。

圖4 待消歧論文子圖與正確作者子圖、其他作者子圖相似度矩陣

3.2 特征增強模塊

特征增強模塊的設計動機在于,各個候選作者子圖的交互節點數各不相同,故子圖信息交互模塊所返回的相似度矩陣的尺寸不同,模型難以直接利用待消歧論文與不同作者的交互信息。此模塊使用k組徑向基核函數將特征矩陣轉換為相同維度特征向量,同時還能夠對特征矩陣蘊含的信息進行增強。最后,排序層將經歸一化后的特征向量進行打分排序,以實現將待消歧論文所對應的正確作者與其他作者進行有效區分。

歸一化層的操作類似于信息檢索的核函數池化[21],Mi為相似度矩陣M第i行,表示Gp第i個節點與Ga中各個節點的特征相似度。在式(6)中,K(Mi)第k個元素Kk(Mi)表示對Mi使用式(7)中第k組核函數(均值μk,標準差σk)處理并進行池化求和。

歸一化層最終通過對Gp每個節點所對應的K(Mi)進行對數求和得到Gp與Ga的圖相關性特征φ(M),見式(8)。歸一化層所使用的徑向基核函數能夠配置多組超參數來捕捉到M中不同層次的匹配信息。例如,當μ→1,σ→0函數關注M所包含的節點特征間完全匹配的信息,當μ→0.5,σ→0函數則關注M中相似度近似為0.5的信息。該方式使歸一化層進一步豐富了交互層所傳遞的信息。

(8)

排序層基于排序學習[21](Learn To Rank,LTR)的思想,使用待消歧論文與各候選作者的圖相關性特征來對整體框架進行有監督的訓練。排序層首先使用全連接層將各個圖相關性特征轉換為匹配得分,然后以在表征空間中縮小論文與正確作者a+的距離、拉大與其余候選作者的距離作為目標進行訓練。訓練使用多負例排序損失作為損失函數,相比三元組損失,該損失函數具有更大范圍的感受野,能對正確作者與其余作者實現更有效的區分。式(9)中Ai代表待消歧論文pi所對應的候選作者集合。

(9)

4 融合語義特征與結構特征的消歧模型

4.1 特征介紹

在語義信息方面,前人的工作已經證明,基于抽取待消歧論文與候選作者共現信息的特征工程方法在同名消歧任務中取得了很好的效果[7,16]。此外,使用論文與作者的語義向量進行相似度計算所求得的特征對消歧也有一定程度的幫助[7]。因此本文也集成了特征工程的方法,在作者名、題目、關鍵詞、機構和會議5類屬性上進行手工匹配特征的構建,以作者為例,待消歧論文中除消歧姓名A以外有共同作者名B、C,候選作者的某些論文的作者名出現B則視B為共現作者,根據TF-IDF得到共現作者名字的分數以及此分數在所有名字TF-IDF總分數下的比例;除作者名外的論文屬性還使用Jaro Winkler距離和Jaccard相似度等算法來提取論文與論文之間多維度的共現信息,最終構建出36維手工匹配特征。隨后使用學術預訓練模型OAG-BERT推理得到待消歧論文與候選作者各篇論文的嵌入向量,并基于文章間的相似度矩陣使用多組核函數池化得到41維嵌入匹配特征。

在結構信息方面,通過本文的結構特征提取框架來獲取圖相關性特征,框架中的子圖信息交互模塊通過預訓練模型初始化節點特征,采用訓練過的圖注意力網絡分別對論文子圖與作者子圖中的節點特征進行加權聚合,再以細粒度的交互方式得到論文與各候選作者的相似度矩陣,框架中的特征增強模塊使用徑向基核函數將多組相似度矩陣分別轉換為41維圖相關性特征。

總的來說,在實時同名消歧任務中,以手工匹配特征與嵌入匹配特征來代表語義信息,以子圖結構特征提取框架所推理的圖相關性特征代表結構信息。

4.2 集成學習框架

本文首先通過子圖結構特征提取框架、特征工程與文本嵌入的方式獲取待消歧論文與候選作者間的語義和結構信息,然后使用集成學習來構建子圖結構增強的實時同名消歧模型RND-all,以實現對各類消歧信息的全面融合。RND-all對圖相關性特征、手工匹配特征、嵌入匹配特征均應用三類GBDT模型作為基分類器,具體分別為XGBoost、CatBoost和LightGBM。模型框架如圖5所示。

圖5 RND-all模型框架

訓練過程中將訓練集分為5等份,其中4份作為訓練集,1份作為驗證集?;贐agging的思想,每一類基分類器均通過5折交叉驗證的方式訓練5個同分類器類別的子模型,并將子模型的平均預測概率作為基分類器的輸出以提高整體模型的泛化能力。在預測過程中各類特征下的候選作者預測分數通過投票進行集成,使語義與結構特征一起參與作者的判定。

5 方法評測與實驗結果

5.1 數據集及實驗設

數據集:本文基于百萬級人工標注的同名消歧數據集WhoIsWho(6)https://www.aminer.cn/whoiswho進行評測[7,22]。WhoIsWho數據集最新版本(v3.1)包括人工標注的 2 459個姓名所關聯的 72 609個作者和 1 102 249篇論文,以及作者和論文之間的匹配關系。據統計,WhoIsWho中87%的姓名為消歧難度更大的中文姓名,數據集中的論文與作者涉及計算機、材料以及生物等十多種領域。WhoIsWho包括冷啟動消歧與實時消歧兩個子數據集,本文采用實時消歧數據集開展實驗并基于作者檔案以及論文的屬性信息進行構圖。由于部分作者或論文沒有子圖結構信息,數據集預處理時采用WhoIsWho訓練集作者檔案中的論文與候選同名作者列表構建出30 000組樣本,并按照7∶3劃分訓練集與驗證集,其中每組樣本由待消歧論文、正確作者以及9位同名不正確作者構成;測試集為5 968篇待消歧論文,實驗中將每篇待消歧論文與消歧姓名對應的所有同名作者構成待預測樣本。

參數設置與實驗環境:本文使用的具體參數設置如下: 節點特征維度d=768,圖注意力網絡層數l=2,每層注意力頭數量分別為4和1,訓練使用Adam優化器進行參數優化,初始學習率0.001,使用指數下降學習率調節器ExponentialLR,每一輪將學習率乘以0.9,一共訓練30輪;集成學習中GBDT基分類器設置樹深度為10層,學習率0.05,迭代1 000輪;徑向基核函數配置41組超參數,41組核函數的均值μ為從1到-1步長為0.05的遞減數列,方差σ除首位為0.001外其余均取0.1。實驗平臺環境為NVIDIA GeForce GTX2080Ti 顯卡(11 GB顯存),Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40 GHz,256 GB內存的處理器。

評估指標:實驗采用命中率HR@k和平均倒數排名MRR來評估實時同名消歧任務下不同模型的效果。HR@k計算正確作者排名在前k位的樣本占所有樣本的比例,MRR對所有樣本計算正確作者所在排名的倒數的平均值,這兩種指標分別強調實時消歧模型預測的召回率與正確答案的排序位置,兩種指標值越大代表模型效果越好。

5.2 基線模型

本文與多個實時同名消歧相關的基線模型進行比較,主要包括:

(1) CAMEL模型[13]首先將待消歧論文經GRU編碼為論文的初始嵌入,之后基于作者與論文之間的結構關系通過隨機游走的方式更新論文與作者的表示,最后直接將嵌入向量用于實時消歧。

(2) GML模型[6]提出一種基于度量學習的消歧方法。首先使用預訓練的Word2Vec獲取論文嵌入向量,然后通過作者已發表論文的平均嵌入來作為作者表示,在訓練過程使用度量學習來拉近論文與正確作者的距離并推遠與其余作者的距離,進而優化作者與論文嵌入中的語義信息。

(3) IUAD模型[16]按照共同作者、研究領域與期刊會議三方面統計出待分配論文與候選作者的相關性特征,使用EM算法學習多組匹配分布的參數用于消歧。

(4) CONNA模型[7]對待消歧論文與候選作者不同論文以及論文中的不同屬性利用預訓練模型來計算細粒度的語義匹配特征,同時還使用了特征工程進一步增強消歧特征的表達能力。

5.3 實驗與分析

5.3.1 基線模型對比結果

表1為RND-all與各基線模型的對比結果。CAMEL通過隨機游走來學習作者嵌入向量,當出現某些作者所發表論文非常少的情況時,這類作者的嵌入向量無法得到較有效的訓練,該方法結果并不理想;GML通過所發表論文的平均嵌入向量來表示作者,在很大程度上緩解了CAMEL中特征稀疏的問題,但因為缺乏文本層面的直接匹配特征表現較為一般。除此之外,GML所使用平均嵌入向量的方式無法捕獲細粒度信息,忽視了待消歧論文僅與正確作者少量論文相關的情況;IUAD和CONNA均在通過文本嵌入向量進行細粒度匹配的基礎上,進一步使用特征工程在文本上獲取更細致豐富的直接匹配特征,兩種消歧方法在特征工程設計上有一定差異,但是實際結果差距較小。

表1 不同消歧方法在實時消歧任務上的效果

本文注意到IUAD和CONNA沒有利用消歧論文與候選作者之間固有的結構信息,因此,所提出的RND-all模型,首先采用子圖結構特征提取框架來獲取論文與候選作者之間的圖相關性特征;然后,通過特征工程和文本嵌入技術得到不同維度的語義特征;最終,通過集成學習方法實現了語義和結構信息的有效融合。RND-all的HR@1、HR@3和MRR指標均達到最高,分別為95.09%、99.69%和97.36%,相比CONNA分別提升3.99個百分點、1.24個百分點和2.5個百分點。

5.3.2 RND-all應用于WhoisWho同名消歧競賽

WhoisWho是全球范圍內首個考慮NIL(Not In List,NIL)問題的同名消歧競賽,WhoIsWho競賽已經舉辦三屆,累計吸引了3 000余名研究者參賽。目前WhoIsWho競賽長期維護兩個同名消歧子任務的排行榜。本文在RND-all的基礎上適配此競賽,最終在實時同名消歧賽道取得第一名的成績。

NIL問題指待消歧論文不應該屬于數據集已有的任何作者,例如,平臺收錄了一名大學生發表的第一篇論文,但這篇論文不屬于平臺中任何與他同名的作者,因此實時消歧模型不僅需要根據待消歧論文的內容在候選作者中發現正確作者,還要對論文是否為NIL做出判斷。該競賽使用weighted-F1來綜合衡量各參賽者的實時同名消歧算法的預測精度以及NIL的識別能力。為應對NIL場景,本文構造由論文與同名非正確作者組成的訓練樣本來仿真NIL數據,并在原RND-all的各基分類器的上面再疊加一層GBDT模型用于NIL數據的判定。上層所疊加的模型首先將基分類器下各作者的預測分數進行降序排列,然后取第一名作者得分、所有候選者平均得分、前兩名作者分數差與第一名及最后一名分數差的比值來構造代表候選作者總體分布信息的特征向量,用于NIL的判定訓練。最終,如圖6所示,本文所提的子圖結構增強的RND-all獲得競賽冠軍,相比亞軍與季軍的方法,RND-all最大的區別就在于消歧特征中額外引入了待消歧論文與候選作者的結構信息。

圖6 WhoIsWho同名消歧競賽實時同名消歧子任務排行榜

5.3.3 語義信息與結構信息對性能的影響

為探究語義信息與結構信息對實時消歧任務的貢獻,本文對兩類信息下的各個特征進行消融實驗。語義信息上采用了手工匹配特征(簡記為Hand)以及基于OAG-BERT的嵌入匹配特征(簡記為Embedding),結構信息上使用第三節框架所提取的圖相關性特征(簡記為Graph)。下面以一篇待消歧論文與一位同名候選作者來分析計算三類特征的時間復雜度,候選作者檔案中的論文數為N,論文或者機構名所構成字符序列的長度為S,預訓練模型詞表大小為V,詞向量維度為H,預訓練模型層數為L,圖中的邊數為E。計算手工匹配特征的時間復雜度為O(NS),計算嵌入匹配特征的時間復雜度為O(N((V+S)H+LH2)),計算圖相關性特征的時間復雜度為O(N((V+S)H+LH2)+EH)。

使用不同特征的消歧效果如表2所示,模型1和3僅使用語義特征,模型3在模型1基礎上引入嵌入匹配特征后HR@1有所提高,說明使用更豐富的語義信息有一定作用。模型5相比模型1多融入了結構信息,HR@1提升0.28個百分點,說明結構特征能夠進一步增強模型性能。其中,融合結構信息與語義信息的模型6達到最佳效果,相比使用兩種語義特征的模型3,在HR@1提升0.3個百分點,再次證明結構信息的有效性。

表2 不同特征的消融實驗

通過觀察引入結構特征的模型相較于僅使用語義特征的模型所多分配正確的論文,本文發現這類待消歧論文存在兩個特點,一是論文與多位同名候選作者檔案均存在較多的共現信息,二是論文普遍為生物、化學相關領域,文中含有大量復雜的專業術語。在此類復雜實時消歧場景下僅使用語義特征較難發揮作用,而引入結構特征能帶來的性能提升是因為圖模型能在較大的數據范圍上關注到相對突出的信息,更利于復雜場景下的實時消歧。

另外,本文統計了各組模型在各個消歧姓名下待消歧論文的排序指標。通過模型6的結果與其余模型結果使用Paired T-test進行顯著性分析,模型6與其余模型的p-value均小于0.05,說明此模型與消融實驗中其余模型存在顯著差異。

5.3.4 實例分析

為直觀分析結構信息對實時消歧算法性能帶來的提升,本文對僅用語義信息分配有誤而在引入結構信息后分配正確的文章加以分析。

以圖7中WhoIsWho中標號為“bN3NQ9Tz”的待消歧論文為例,該文待消歧作者名為“Qing Chen”、機構為“Southern Medical University”、論文關鍵詞為“Methylenetetrahydrofolate”和“Meta-analysis”中文分別譯為“亞甲基四氫葉酸”和“元分析”。兩名同名候選作者均在已發表論文的機構出現過“Southern Medical University”,ID為“6D1dm9qQ”的學者主要開展基因相關研究,ID為“F204Rizj”的學者關注呼吸系統疾病的研究。通過查閱兩名作者的檔案,發現相關論文中均存在大量醫學相關的名詞以及許多復雜的化學物質名稱。其中,ID為“F204Rizj”的作者較多論文出現含義更為寬泛的“Meta-analysis”關鍵詞,因此僅使用語義信息的模型更傾向分配給此作者。而RND-all通過圖注意力網絡對多跳信息進行聚合,能夠捕捉結構中更突出的信息,因此待消歧論文節點雖然與兩個候選作者子圖中的節點均具有共現詞,但是在節點之間的相似度上已有較大差異,如圖中相似度分別為0.77與0.51。

圖7 實例分析

通過本例可以觀察到,僅使用語義信息所導致的消歧錯誤往往是因為多位候選作者之間存在語義上易混淆的相似關鍵詞,并且待消歧的論文普遍為生物醫藥以及化工材料領域。因此,本文認為結構信息所帶來的效果提升源于以下兩點:

(1) 部分待消歧論文所對應的多位同名作者在機構、研究領域上內容相近,導致兩名學者在文章內容上具有較多的共現詞匯,此時僅依賴語義信息很難進行準確地消歧,要進一步通過構建圖來從全局結構上提取更突出的信息。

(2) 在生物、化學等領域,文章標題與關鍵詞中經常出現復雜的專業名詞,手工匹配與嵌入匹配特征在這類信息上表達能力比較有限,進而使用論文、作者、機構在關聯結構中表達出的信息對實時同名消歧任務更有幫助。

5.3.5 不同范圍下子圖交互效果

為觀察子圖結構特征提取框架中交互層在不同范圍的交互效果,實驗對待消歧論文子圖Gp與候選作者子圖Ga采用一對一、一對多和多對多的方式進行特征交互。一對一交互指僅對自我中心網絡Gp與Ga的中心節點進行相似度計算;多對多交互分為兩種交互范圍,Gp與Ga全量節點之間的交互和Gp與Ga在中心節點一階鄰域的交互;類似的,一對多交互分為Gp中心節點與Ga全量節點的交互、Gp中心節點與Ga一階鄰域的交互。

通過表3觀察到,僅使用Gp與Ga中心節點一對一交互的效果不佳,雖然中心節點通過鄰居進行了特征聚合,但一對一的交互方式直接損失了子圖中大量的信息;使用多對多方式在Gp與Ga全量節點的交互相較前者在HR@1、HR@3、MRR上均有提高,反映出利用圖中豐富信息能有效提高模型消歧的能力,但在本身圖的構建過程中高階鄰居節點不可避免地會引入噪聲,全量節點的交互過程中可能摻雜一定的錯誤信息,所以HR@1表現一般;多對多方式在一階鄰域交互后的模型在HR@1和MRR下取得最好效果,本文認為論文與作者子圖的一階鄰域代表待消歧論文與候選作者最直接相關的內容,其已經蘊含絕大部分有助于消歧的信息,同時此范圍交互能夠避免高階噪聲節點產生的誤導信息,該方法相較于前面的一對一和全量交互在HR@1上分別提高9.36個百分點和5.46個百分點。另外,從一對多交互的兩組實驗觀察到,Gp中心節點與Ga一階鄰域交互的HR@1、MRR要高于與Ga全量節點交互,而后者使用全量節點的方式在HR@3上優于一階鄰域的交互,我們發現,此現象同樣出現在兩組多對多實驗上,因此本文認為全量匹配雖然損失一定的精度導致HR@1與MRR下降,但是引入更大范圍的信息有助于部分正確作者提升在整體排序中的名次,使得正確匹配作者更有機會進入預測分數最高的前三名,從而HR@3有所提升。

表3 不同范圍下子圖交互效果

6 總結

本文提出子圖結構增強的實時同名消歧模型RND-all,首先通過子圖結構特征提取框架高效計算出論文與候選作者之間的結構特征,然后采用特征工程與文本嵌入方法提取用于消歧的語義特征,最終使用集成學習實現語義信息與結構信息融合。RND-all在WhoIsWho實時同名消歧數據集上各類指標均達到最優,并且在WhoIsWho競賽實時消歧排行榜上排名第一,表現出語義特征與結構特征融合的優越性。在本文的消融實驗與實例分析中進一步闡明了引入結構特征的有效性。

RND-all在結構信息的提取上仍有幾個可能的改進點,在初始化節點特征上未來可選用更強大的預訓練模型進行特征表示以提高節點的表達能力,圖神經網絡模型方面可采用Graph Transformer[23]等新型模型增強特征聚合能力。此外,如何將結構特征更有效地引入實時同名消歧任務也是今后值得關注的研究方向。

猜你喜歡
消歧同名子圖
基于關聯圖和文本相似度的實體消歧技術研究*
同名
基于半監督集成學習的詞義消歧
臨界完全圖Ramsey數
藏文歷史文獻識別過程中藏文自由虛詞的自動識別及消歧算法的研究
三 人 行
基于頻繁子圖挖掘的數據服務Mashup推薦
集成成像同名像點三維形貌獲取方法
與星星同名
不含2K1+K2和C4作為導出子圖的圖的色數
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合