杜若鵬 張潔 寇遠濤
(中國農業科學院農業信息研究所/國家新聞出版署農業融合出版知識挖掘與知識服務重點實驗室/農業農村部農業大數據重點實驗室,北京 100081)
隨著互聯網技術的不斷發展,網絡信息量海量增長。一方面,人們可十分便利與迅速地獲取信息;另一方面,面對“信息過載”的局面,在海量信息當中準確和高效地獲取所需要的信息變得越來越困難[1]。在科研領域,如何在大數據環境下高效精準地獲取兼具專業性、時效性、權威性的科研信息資源,已經成為科研人員亟待解決的問題之一。針對科研人員的迫切需求,以精準服務與個性化需求服務為代表的智能知識服務應運而生[2]。智能知識服務依賴知識組織、數據關聯、自然語言處理等關鍵技術來實現以用戶個性化需求為導向的專業領域知識信息服務。其中,用戶畫像技術是滿足用戶個性化需求的有效工具[3]。
用戶畫像通過信息化挖掘技術對用戶數據特征進行識別與凝練,篩選出最具代表性的信息標簽,從而為用戶構建一系列特征標簽集,進而實現個性化精準內容推薦,改變了傳統信息服務“人找信息”的模式,實現了“以人為本”的智能知識服務[4]。
與常見的商業性用戶畫像主要關注人員屬性信息、泛化興趣偏好等不同,面向科研人員的科技信息平臺的用戶畫像更加聚焦用戶的研究方向、研究主題等專業信息[5]?;谖墨I數據的主題抽取標注是構建科研人員用戶畫像的主要手段。目前常用的文獻數據主題抽取方法包括基于詞頻統計特征的特征詞抽取、基于詞圖模型的特征詞抽取和基于主題模型的特征詞抽取等。在實際應用過程中,現有的主題抽取方法均存在高維特征表征稀疏、泛化能力差、易用性受限等問題,導致用戶畫像不夠“像”,文獻推薦服務不夠準。因此,本研究改進基于文獻數據的主題抽取標注方法,以期提高科技人員用戶畫像的準確性,進而實現更加精準高效的文獻信息推薦服務。
在對目前常用的主題抽取方法存在問題進行分析的基礎上,提出基于文本共現詞與TextRank算法的主題特征抽取方法Co-Occurrence Words-TextRank(CoTR),用該方法對農業科技信息平臺用戶關注和瀏覽的文獻數據進行主題抽取,將獲得的核心特征詞作為用戶畫像的標注主題詞,并據此構建用戶主題推薦表達式進行文獻推薦效果驗證。結果表明,與其他方法相比,該方法顯著提高了推薦內容的精準度,具有較強的實用性。
用戶畫像這一概念是由交互設計之父Alan Cooper于1998年提出的,他認為用戶畫像是真實用戶的虛擬代表,是建立在一系列真實數據之上的目標用戶模型[6]。目前學術界一般認為用戶畫像通過信息挖掘分析手段,提取用戶信息的主要及重要特征并予以標注,構成用戶顯著特征的數字化標簽集合。用戶畫像是大數據環境下挖掘與分析用戶需求的有效工具,在商務營銷、平臺運營、圖書館服務等領域得到了廣泛應用[7]。用戶畫像的構建一般分為3個步驟:數據獲取、數據預處理、標簽體系及用戶模型構建[8]。數據獲取包括靜態的用戶基本信息以及動態的用戶行為數據等。數據預處理主要針對數據中存在的信息缺失、重復及噪聲等問題進行數據清洗與整理,以便提升數據的可用性。標簽體系及用戶模型構建是用戶畫像的核心步驟[9]。標簽體系構建包括服務對象標簽與服務內容標簽構建:服務對象標簽構建是指通過數據分析及特征抽取等技術手段,對用戶屬性及信息等多維度數據進行特征刻畫并標簽化;服務內容標簽構建涉及商品描述與資源等信息數據,主要通過信息特征抽取技術,對內容信息的核心特征進行表征。用戶模型構建以標簽體系或特征抽取技術為基礎,通過算法進一步凝練與勾勒用戶的特征。用戶模型構建主要有本體構建、規則定義、統計分析、聚類分析以及主題模型等模式[10]。
專業科技信息平臺主要匯聚和整合行業及科研領域的專業信息數據,并面向專業人員提供及時、全面、權威的信息服務[11]。專業信息數據一般包含科技論文、行業報告及新聞報道、專利數據與科學數據等。其中,科技論文承載著聚集、展示、傳播科技前沿信息與科研成果的功能,代表先進的科學技術水平,是學術領域發展的風向標[12]。同時,專業科技信息平臺的受眾主體均是從事科研或行業生產活動的專業人員。該類用戶主要聚焦自身從事的領域,對于資源服務內容的專業性及準確性有較高的要求。因此,專業科技信息平臺是專業性極強的垂直領域信息平臺,該類平臺的資源推薦服務有別于一般電商或門戶平臺的泛興趣推薦模式,更加強調推薦資源的專業性、權威性和時效性[13]。由于用戶畫像針對用戶的個性化需求進行特征表達及標簽化標注,具有極強的針對性,基于用戶畫像的精準推薦算法被廣泛應用于專業科技信息平臺的推薦服務。
文本主題詞抽取方法是專業科技信息平臺用戶畫像中常用的特征表達及標簽化標注方法,該方法分為有監督方法與無監督方法兩大類[14]。由于有監督方法需要預先針對所抽取主題準備標注好的訓練語料,在實際應用過程中受到限制,因此目前無監督方法適用性較強。
無監督方法可以分為三大類:基于詞頻統計特征的特征詞抽取、基于詞圖模型的特征詞抽取和基于主題模型的特征詞抽取,其典型代表分別為TF-IDF算法、TextRank算法以及隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型。TF-IDF算法的主要問題是僅用詞頻來衡量特征詞的重要性,不夠全面,無法體現特征詞在上下文中的重要性[15]。TextRank算法從特征詞與共現詞的入度與出度等角度衡量特征詞的重要程度,傾向于將高頻詞作為特征詞,在過濾泛化特征詞方面效果一般[16]。LDA主題模型的突出問題是,在很多情況下難以確定合適的主題數量,這直接影響到主題抽取的實際效果[17]。在面向大體量的用戶畫像時,LDA主題模型難以實現針對單個用戶迭代適配主題數量。此外,科研用戶更關注自身研究領域,反映在關注主題方面,呈現出關注主題數量較少的特點。LDA主題模型更適用于數據量較多且主題辨識度更高的群體畫像。
高頻詞法由于簡單易行,也被普遍應用于用戶畫像主題標注,但因為輸入檢索詞串與文獻的關鍵詞組都存在一定關聯性,僅基于單獨的高頻詞組合選取特征詞會導致偏離關鍵的特征組合,遺漏重要信息。用戶輸入的序列關聯詞組及關鍵的文獻共現關聯關系被破壞,導致用戶畫像準確性下降,相關資源推薦的應用效果受到極大影響。利用用戶輸入的檢索詞對及文獻的共現關鍵詞,共現詞分析法可以有效地保留特征詞之間的關聯關系,在一定程度上能夠縮小用戶關注主題與特征抽取主題之間的差距,但該方法僅采用詞頻衡量的方式進行加權計算,分析較為粗略。通過以上分析可以看出,現有的主題詞抽取方法都存在問題,需要進一步改進。
研究使用的數據來源于“國家農業科技創新聯盟農業科技信息資源共建共享平臺”。2016年中國農業科學院農業信息研究所牽頭成立了“國家農業大數據與信息服務聯盟”,并構建了“國家農業科技創新聯盟農業科技信息資源共建共享平臺”。該平臺依托國家科技圖書文獻中心(National Science and Technology Library,NSTL)、國家農業圖書館以及各聯盟成員單位,匯聚了2 000余萬個特色文獻資源,其中包括600多個農業科學數據集,涵蓋作物科學、畜牧科學、草業科學、農業生物技術等學科領域[18]。目前該平臺有近3萬名實名注冊用戶,用戶覆蓋全國33個省區市,服務輻射中國農業科學院系統的超過30余家科研單位,是我國較為權威的農業專業信息資源平臺之一。研究使用數據的時間跨度為2021年12月—2022年12月。為了便于分析,根據用戶活躍度選取排名前100的用戶作為頭部用戶并提取2 000條相關歷史行為數據。
主要聚焦用戶對科技文獻的關注主題進行分析,為了提高特征詞抽取的準確性,對材料數據屏蔽停用詞與干擾詞,過濾“一種”“具有”“及其”等與研究主題無關的干擾詞[19]。同時,基于《農業科學敘詞表》[20]篩選特征詞,保證抽取的特征詞具有農業專業性。獲取指定時間段內單個用戶瀏覽及下載的學術文獻資源的元數據信息,包括文獻的題名及關鍵詞等,形成文檔數據集合D,D=[D1,D2,…,Dm](m為指定時間段內單個用戶瀏覽及下載文獻總數),Dk表示第k篇文檔(1≤k≤m)。
由于所處理的用戶瀏覽及下載的文獻數據基本上都是學術論文,絕大多數文獻數據具有關鍵詞信息,因此直接按分隔號切分出文獻關鍵詞,將文獻關鍵詞直接作為該篇文獻的候選特征詞。少數文獻或部分資源數據不具有關鍵詞信息,通過過濾停用詞及分詞切分的方式,對數據題名信息進行分詞提取。鑒于多數文獻的關鍵詞數量為4或5個,對題名的分詞數量也為4或5個。為了提升分詞準確性,利用現有具備關鍵詞的文獻數據,將其匯聚整理形成專業分詞詞表,以便分詞工具調用。
由上文分析可知,高頻詞法與TextRank算法無法提取組合詞,可能遺漏特征詞間的關聯信息,而共現詞分析法可以有效地保留特征詞之間的關聯關系;在特征加權計算方面,共現詞分析法僅用詞頻來計算,而TextRank算法可以依據特征詞與共現詞的入度與出度等細粒度數據進行加權計算。因此,結合兩種算法,構建了結合共現詞分析與TextRank算法的CoTR方法,即先采用共現詞分析法對用戶關注與下載的文獻數據構建共現詞集,再通過TextRank算法計算共現詞的重要性權重,最終選取權重最高的共現詞組合作為用戶畫像的主題關鍵詞。
2.3.1 構建基于關鍵詞的共現詞集
共現詞分析法通過統計文獻中詞匯或名詞短語的共現頻率來反映詞之間的關聯強度,進而確定詞匯所代表的學科領域的研究主題或熱點[21]。在數據中,共現詞同時出現的頻次越多,則關聯關系越緊密。由共現詞構成的共現詞集在一定程度上可以反映數據的關鍵特征。由于農業科技信息平臺提供的內容服務大多基于學術期刊的論文數據,所涉及數據本身大多具有已標注的關鍵詞信息,因此可以直接加以利用。首先,根據單個用戶瀏覽與下載的文獻數據提取單篇文獻的關鍵詞,構建單篇文獻共現詞集。對于缺失關鍵詞的數據,基于題名信息進行分詞處理,提取4或5個專業詞匯填補空缺。遍歷全體用戶行為數據,重復上述過程,建立多篇文獻共現詞集。其次,為了便于合并統計詞對,升序或降序排列共現詞集中的詞對元素。最后,遍歷所有共現詞集,對共現詞詞頻進行統計,生成共現詞詞頻字典作為候選特征詞集。
2.3.2 特征詞加權計算
在構建上述候選特征詞集后,進一步對該集合中的詞匯進行權重分析,以便選取價值較高的特征詞作為主題詞并應用于用戶畫像標注。采用TextRank算法對候選特征詞進行加權計算。加權計算公式如式(1)所示。
式中:Vi代表給定的第i個特征詞,W(Vi)代表Vi的加權值;Vj代表Vi的共現詞,W(Vj)代表Vj的加權值;Vk代表Vj的共現詞;fIn、fOut分別代表指向Vi、出自Vj的詞集合;Wij、Wjk分別代表Vi與Vj、Vj與Vk的詞間加權值;d代表阻尼系數,避免加權項過大的情況,一般為0.85。
利用上述加權計算公式與關鍵詞的共現關系,計算出每一個關鍵詞的特征加權值,形成關鍵詞加權詞典,以鍵值對的形式存儲:鍵值為關鍵詞本身,數值為該詞的加權值。
2.3.3 生成用戶主題詞
根據關鍵詞加權詞典,遍歷整體候選特征詞集,為每一個共現詞組合計算加權值,該加權值為各共現詞加權值之和。加權值越高代表該組詞越重要,因此依據加權值進行排序,選取得分排名靠前的3~5組共現詞組合作為最終的用戶關注主題詞,用于標注與構建該名用戶的用戶畫像。
為驗證用戶畫像主題標注方法的有效性,設置基于用戶畫像標注結果的內容推薦實驗。用戶畫像主題標注方法的準確性直接決定推薦效果,因此內容推薦實驗結果可以充分反映出用戶畫像主題標注方法的精確性和有效性。
首先,根據用戶的月訪問頻次、下載文獻數量等情況進行統計,篩選出最為活躍的100名頭部用戶,根據用戶歷史行為數據為每名頭部用戶隨機篩選20條所關注過或下載過的文獻數據,共得到實驗研究數據2 000條。其次,采用構建的主題抽取方法對頭部用戶進行主題標注,同時為了驗證該方法的優越性,分別采用高頻詞法、共現詞分析法以及TextRank算法等3種方法進行主題標注的對照實驗。以上每種方法為每名用戶標注5個優選主題詞或詞對,進而依據相同的構建規則建立內容推薦的檢索表達式:若詞對內部關系緊密用“與”(AND)邏輯,優選詞之間用“或”(OR)邏輯。根據檢索表達式對“國家農業科技創新聯盟農業科技信息資源共建共享平臺”的資源庫進行查詢,并為每名用戶返回10條推薦文獻,每種方法均為相同的100名用戶返回1 000篇推薦文獻。最后,農業領域專家對文獻的推薦效果進行打分。專家對照用戶之前關注的文獻的主題內容判斷所推薦的文獻主題是否與用戶關注文獻的主題一致,一致則得1分,每種方法的得分率即為該方法推薦文獻的準確率。為了進一步驗證方法的有效性與適用性,對每次實驗均做去重處理,避免推薦數據與對照數據重復。
采用高頻詞法、共現詞分析法、TextRank算法及提出的CoTR法等4種用戶關注主題抽取標注方法進行內容推薦實驗?;贑oTR方法的推薦效果最佳,結果準確率達到93.3%,相較于其他3種方法存在較大優勢。在其他3種方法當中,基于高頻詞法的推薦效果最差,準確率最低,僅為70.4%;其次是基于共現詞分析法的推薦方法,準確率為74.1%。相較于高頻詞法與共現詞分析法,TextRank算法的推薦結果稍好,準確率達到了77.8%。
高頻詞法雖然在一定程度上能反映出用戶所關注的主題內容,但是由于僅從孤立的單詞詞頻角度進行主題抽取標注,沒有考慮到詞之間的關聯關系,導致組合結果與實際主題之間差距較大,即無法通過高頻詞法逆向重構分析數據的主題?;诠铂F詞分析法的推薦效果略微優于高頻詞法,這是由于共現詞分析法考慮到了高價值特征詞的固定搭配,以高頻詞對的方式篩選特征詞,具有較強的可解釋性。在實驗與實際應用中發現,當文獻主題分布不均衡或為多主題時,往往會出現無明顯高頻詞對的情況,此時共現詞分析法失效,基于此的推薦結果產生極大偏差。TextRank算法主要從特征詞與共現詞的入度與出度等角度衡量特征詞的重要程度:入度越大說明共現情況越廣泛;出度越小說明共現詞搭配越固定。因此,TextRank算法篩選出的特征詞具有共現關系普遍且共現搭配相對固定的特點。正是由于TextRank算法既考慮到特征詞的共現頻率與廣度特征,又考慮到詞間關系及共現特征,基于TextRank算法的推薦效果優于高頻詞法和共現詞分析法。然而,某些用戶關注主題呈現明顯的共現網絡結構特點,即共現固定搭配數量多,此時TextRank算法雖篩選出了核心關鍵詞,但關鍵詞之間缺乏關聯關系支撐,所以推薦效果大打折扣。由于提出的CoTR方法在關鍵詞的共現關系基礎上進行加權分析,優先獲取共現詞這類“大特征”,進而使用TextRank算法進行加權分析,避免了單獨使用TextRank算法進行特征抽取中存在的問題。同時,當無明顯高頻詞對時,CoTR方法通過更細粒度的加權計算進行特征詞篩選,有效地解決了共現詞分析法失效的問題。
綜上所述,提出的CoTR方法既充分考慮單個特征詞的重要性,又將共現搭配與詞間關系納入統計分析,在用戶畫像的主題抽取標注方面顯示出了很好的應用效果。
本研究針對專業科技信息平臺內容具有較強專業性的特點,在分析常用主題抽取方法的基礎上,提出了結合共現網絡與關鍵詞加權分析的主題特征抽取方法,從而進行主題標注。同時,為了驗證用戶畫像主題標注的有效性與準確性,實施了基于用戶畫像的主題內容推薦實驗。實驗結果表明所提方法的準確性優于高頻詞法、共現詞分析法與TextRank算法,能夠有效地解決專業科技信息平臺用戶畫像主題標注不精確的問題,具有較強的實用性。
共現詞分析法與TextRank算法所提取的特征詞往往具有高頻傾向性,但由于所處理分析的文獻數據均具有關鍵詞信息,本研究呈現出很好的驗證效果。由于科技期刊文獻都具有關鍵詞信息,所提方法在科技用戶畫像方面具有廣泛的適用性,而對于未標注關鍵詞的一般性文獻數據,該方法還需進一步研究完善。此外,目前本研究僅限于雙詞共現分析,未來將嘗試針對多詞共現的情況進行分析,以便進一步提高用戶畫像的主題標注精度。