基于多注意力機制的多粒度讀者畫像分析

2024-01-12 04:39賀海玉

微型電腦應用 2023年12期

賀海玉

(山東大眾報業(集團)有限公司, 山東, 濟南 250014)

0 引言

高校圖書館是高校教育工作建設的重要組成部分,發揮著提供課后學習場所與保障閱讀需求供給的職能作用。隨著計算機技術的發展,數字時代背景之下,大學生的閱讀需求總體上呈現出閱讀多樣化、高質量化、個性化的傾向[1]。由于未及時精準系統地了解讀者需求,高校圖書館提供的資源、服務與讀者需求之間的矛盾日益凸顯,高校圖書館的使用率越來越低。為了提升圖書館的服務能力,滿足讀者多元化閱讀需求,各大高校圖書館加大投入推行了個性化服務。但個性化服務造成了大量的人力物力消耗,對圖書館管理工作要求較高,且工作效率較低。用戶畫像是建立在真實數據信息之上的用戶模型,能夠借助對數據的分析判斷用戶屬性,將用戶分類并賦予特定描述構成用戶畫像[2-4]。高校圖書借閱會保留大量具有研究價值的閱讀數據,基于閱讀數據可分析讀者閱讀行為,精準預測讀者行為進而實現圖書館的精準服務,促進高校教學文化建設。鑒于此,研究首先利用卷積神經網絡進行用戶內部特征抽取,并使用圖卷積網絡進行讀者間特征抽取,最后使用注意力機制將內部特征與讀者之間的特征聯合在一起構建基于多注意力機制的多粒度讀者畫像分析模型,幫助高校圖書館挖掘讀者閱讀需求,有望提高高校圖書館服務質量。

1 多粒度讀者畫像分析模型搭建

1.1 基于卷積神經網絡的內部特征抽取算法設計

研究利用卷積和圖卷積神經網絡學習表征讀者借閱頻率、閱讀興趣等閱讀行為的特征,利用自注意力機制對數據信息的噪聲進行處理,使用多層注意力機制融合所有特征學習用戶的最終標簽,構建基于多層注意力網絡的聯合讀者評測模型。用戶畫像的核心工作是根據用戶信息賦予用戶特定標簽,電子商務、教育、醫療以及眾多服務行業都根據用戶畫像了解用戶需求,挖掘用戶價值。圖書館的借閱系統會保留大量的日志數據,日志數據覆蓋了機器大部分的執行操作,通過日志能夠實現運維監控、業務分析等多種統計分析的需求[5]。讀者畫像數據包括靜態和動態2個部分,靜態數據包括用戶姓名、年齡、專業以及學歷等基本信息;動態數據包括讀者在閱讀過程中產生的行為數據,包括借閱行為、進出館時間、檢索關鍵詞等。

讀者行為通常包含多種類型的信息,將讀者不同數據來源構成n個行為信息包A,用戶信息定義為{A0,A1,…,An};每個信息包A包含m個行為信息,行為信息定義為句子a,Ai={a0,a1,…,am};每個句子a包含k個單詞w,句子ai={w0,w1,…,wk}。首先每個單詞w進行詞嵌入,將每個句子長度固定為b,長度不夠或超出部分需進行填充或截斷處理。將單詞w通過詞嵌入映射成低維向量E?RV×d,詞向量定義為wi?RV×d,d表示詞嵌入維度,V表示詞匯量大小。詞模塊的框架如圖1所示。

圖1 詞模塊框架

(1)

(2)

(3)

對于預測畫像起重要作用的行為信息,權重較大;對于噪聲較大的數據則削弱權重,句子a的表達式見式(4),a?Rl。

(4)

圖2 句子模塊框架

內部特征計算見式(5)。

(5)

1.2 基于多層注意力網絡的讀者畫像模型搭建

(6)

GCNN通常包括3個步驟:首先將每個節點的自身特征信息轉變后發射給鄰居節點;將節點信息融合后接收并聚集鄰居節點的節點特征信息;最后把信息聚集作非線性變換,增加模型預測畫像能力。經過GCNN算法訓練,即可得到讀者之間的特征uinner。讀者數據來源類型較多,有時存在用戶內部特征數據無法描述完整用戶畫像的情況,算法學習時應將所有類型數據加以考慮,提高用戶屬性預測的準確度,因此需要將得到的讀者內部特征與讀者間的特征進行融合?；诙鄬幼⒁饬W絡的聯合讀者預測模型框架如圖3所示。

圖3 基于多層注意力網絡的聯合讀者預測模型框架

(7)

盡管所有讀者數據來源均用于模型分析,但為了區分不同類型數據對讀者特征分析的貢獻度,且讀者間特征數據噪聲較多,影響讀者畫像描述準確性。研究是根據讀者相似行為的發生而將讀者與讀者連在一起,這種聯系有時存在判斷誤差。為了解決這一問題,研究在基于多層注意力網絡的聯合讀者預測模型中加入信息包級別的注意力機制。通過注意力網絡計算不同特征權重大小,得到聯合讀者的屬性特征,計算過程見式(8)。

(8)

最后,將用戶畫像分類,使用線性函數將讀者特征映射到目標空間,用Softmax分類器計算讀者為當前屬性的概率值,計算過程見式(9)。式(9)中,W、b表示參數,|y|表示類別數[13]。

(9)

(10)

2 基于多層注意力網絡的讀者畫像模型效果分析

為了評估算法的有效性,研究將某高校圖書館20 467名讀者作為一個大群體進行讀者畫像分析,以讀者活躍度、讀者借閱率、電子資源使用率以及進館率四個指標將所有讀者群體分為4類小群體。指標定級分別為高、較高、較低、低,均值范圍≥1.000為高;均值范圍[0.600,1.000)為較高,均值范圍[0.300,0.600)為較低,均值范圍[0.000,0.300)為較低,算法讀者畫像群體分類情況見表1。

表1 讀者畫像群體分類結果

對四個群體的讀者畫像進行分析,根據算法輸出結果,結合讀者基本信息得出讀者群體畫像,據此制定精準個性化圖書服務。由表1可知,第一類群體共9267人,占比45.28%,這類讀者群體畫像為活躍度、借閱率以及電子資源使用率均處于低頻次的范圍,但進館率處于較高水平,該類讀者對圖書館的需求多為使用公共場所自習,占圖書館讀者比例較大,因此可增加圖書館的座位以及自習空間。第二類群體的活躍度、進館率較低,但借閱率高、電子資源使用率較高。這類群體占比23.14%,對圖書館電子、紙質資源比較感興趣。圖書館可對該類群體加大資源推送力度。第三類群體的活躍度、進館低,借閱率較高、電子資源使用率較低,占比較少,僅15.09%。這類群體常在圖書館借閱書籍,但電子資源使用較少,可根據借閱書籍類型增添書籍收藏數量。第四類群體的四個指標均表現較高,該類型應屬于圖書館的忠實讀者,興趣濃厚。對于這類讀者可向其推薦圖書館新設福利,獲取更大吸引力。

將基于多層注意力網絡的聯合讀者畫像預測模型分別與GCNN、CNN-GCNN算法的性能進行比較。3種算法的運行時間結果如圖4所示。由圖4可見,CNN-GCNN-SA的耗時最短,完成所有讀者畫像預測及分類僅用時71.06 s。GCNN、CNN-GCNN算法耗時明顯較長,與CNN-GCNN-SA聯合算法相比,耗時分別增長101.65%,97.02%。在學習效率方面基于多注意力機制的多粒度讀者畫像算法更滿足高校圖書館的需求。

圖4 不同算法的耗時變化比較

為了評估算法的有效性,研究使用準確率與F1值作為評價指標,對模型在讀者的活躍度和借閱率上的預測結果進行評價。比較GCNN、CNN-GCNN、多層圖結構讀者畫像模型(HGAT)和融合文本特征與圖像特征的Text-image cooperation framework(COOP)模型。在同樣的數據集下迭代40次進行算法學習訓練,實驗結果如圖5所示。由圖5可見,CNN-GCNN-SA模型的準確率最高,最大準確率值為91.09%,畫像分類較為準確。GCNN、CNN-GCNN算法的最大準確率分別為67.24%、55.27%,分別低23.85、35.85個百分點。F1值是精確率與召回率的加權平均,因為精確率與召回率有時存在矛盾情況,因此用F1值綜合考慮算法性能。綜合分析來看,CNN-GCNN-SA模型的F1值曲線最高,最大值達到了89.23%,沒有存在精確率與召回率犧牲的現象。綜合而言,研究提出的CNN-GCNN-SA模型的綜合性能更優,與其他兩種模型相比,在活躍度和借閱率上的特征預測結果取得的結果最好。表明多層注意力機制參與的復雜語義特征學習體現了讀者畫像預測的優勢。詞模塊中注意力機制的引入增強了關鍵信息,句子模塊的注意力機制則減少了數據的噪音干擾問題,能夠表征讀者屬性的數據賦予了更大的權重讀者間特征數據噪聲的排除增加了模型對讀者畫像分析的準確性。

(a) F1

較HGAT、COOP模型,CNN-GCNN-SA模型的兩種評價指標仍表現較優,體現了多源特征數據抽取對讀者畫像分析的有效性。HGAT、COOP模型盡管也使用了多類型數據,但對于內部特征的抽取并不充分,讀者間特征沒有得到利用意義,準確率最高值分比為78.45%、81.47%;CNN-GCNN-SA則充分利用了讀者間與讀者內部特征的作用,使得讀者間的關聯性得到充分挖掘。

3 總結

在數據信息時代背景下,為了改善圖書館資源享有情況以及提高圖書館教育文化服務水平,研究設計了基于多注意力機制的多粒度讀者畫像分析模型。首先利用卷積和圖卷積網絡提取讀者內部與讀者之間的特征,利用自注意力機制對計算特征權重大小,并融合所有特征。實驗結果表明,算法可對讀者群體進行畫像分析并分類為4種類型,分別占比45.28%、23.14%、15.09%、16.49%,第一類群體占比最大,依據畫像分析結果可對讀者群體提供精準服務。算法耗時較少,僅用時71.06 s。GCNN、CNN-GCNN算法耗時較長,耗時分別增長101.65%、97.02%。CNN-GCNN-SA模型的準確率最高,最大準確率為91.09%,較GCNN、CNN-GCNN算法高23.85、35.85個百分點;算法的F1值曲線最高,最大值為89.23%。算法預測分類效果較好,綜合性能較優,但模型分析的讀者特征體系還不夠完善,繪制的畫像還可以更加全面。