?

基于用戶畫像的高校圖書館個性化資源推薦服務設計

2021-05-29 16:20李寶
新世紀圖書館 2021年4期
關鍵詞:用戶畫像

摘 要 用戶畫像作為大數據分析背景下個性化推薦服務的設計工具,為高校圖書館領域個性化閱讀資源推薦服務提供解決思路。本研究在分析目前個性化推薦和用戶畫像研究的基礎上,引入用戶畫像技術,從數據基礎層、數據處理層、畫像構建層、畫像服務層設計探討用戶畫像的構建流程,重點在用戶畫像構建和畫像服務層面進行闡述,同時從用戶基本屬性、閱讀狀態、學習風格、閱讀偏好四個維度構建用戶多維畫像模型,并提出基于冷啟動和用戶閱讀學習過程畫像的個性化推薦服務策略,以期為后疫情教育環境下高校圖書館開展個性化資源推薦服務和滿足用戶多維度閱讀學習需求提供參考。

關鍵詞 用戶畫像 ?個性化資源推薦 ?閱讀偏好 ?冷啟動

分類號 G252;G258.6

DOI 10.16810/j.cnki.1672-514X.2021.04.013

Design on Personalized Resources Recommendation Service of University Library Based on User Portrait

Li Bao

Abstract As a design tool for personalized recommendation services in the context of the big data analysis, user portrait provides solutions for personalized reading resource recommendation services in the field of university libraries. Based on the analysis of current personalized recommendation and user portrait research, this research introduces user portrait technology to discuss the construction process of user portrait from the design of the data foundation layer, data processing layer, portrait construction layer and portrait service layer. Then explanation focused on the level of portrait construction and portrait service. At the same time, it constructs a users multi-dimensional portrait model from the four dimensions of users basic attributes, reading status, learning style and reading preference. Finally, personalized recommendation service strategy based on the cold start and user portrait during the users reading and learning process are proposed, in order to provide reference for university libraries to develop personalized resource recommendation services and meet users multi-dimensional reading and learning needs in the post-epidemic education environment.

Keywords User portrait. Personalized resources recommendation. Interest preference. Cold start.

0 引言

“互聯網+”時代背景下,用戶研究一直是高校圖書情報領域研究的熱點問題[1],數據挖掘、機器學習、5G網絡、人工智能、數字孿生等新興技術的出現和廣泛應用為高校圖書館領域的用戶研究帶來新契機、新挑戰?!?020年新媒體聯盟中國高等教育技術展望:地平線項目區域報告》中提到“自適應技術是解決個性化學習的最佳技術,自適應技術能夠依據用戶特征提供符合用戶需求的資源、活動等,逐步成為高等教育領域新增的關鍵技術[2]”。自適應技術指在高等教育機構中要滿足不同學生用戶的需求,自然要考慮不同用戶學習過程中的個體差異性。

2020年是一個特殊的年份,也是全國人民攻堅克難的年份,全國人民遭受到新型冠狀病毒肺炎的災難影響。當前,在以習近平同志為核心的黨中央堅強領導下,全國高教教育系統正在全力做好疫情防控工作。為了解決延期開學期間學生的居家學習問題,教育部印發系列文件,并發出“停課不停學”的通知,集中國家和各地區的力量與資源為廣大高校學生提供學習資源和學習支持服務。在目前5G網絡實現寬信道帶寬和大容量MIMO條件下,網絡學習空間內的信息量呈現幾何式爆發增長,為用戶提供了大量的個性化學習閱讀資源[3]29。然而,疫情期間面對大量開放的閱讀資源以及各類用戶,高校圖書館作為提供學生用戶閱讀學習資源的主要服務機構,如何針對學生用戶個體特征從數字圖書館海量服務資源庫中推薦符合用戶個性化需求的閱讀學習資源等,正是高校圖書館機構亟待解決的問題。

用戶畫像作為大數據分析背景下個性化推薦服務的設計工具,為智慧圖書館個性化資源推薦服務提供了解決思路[3]29-30。因此,筆者認為要解決疫情期間高校數字圖書館學生用戶個性化閱讀資源服務的問題,需要借鑒大數據、學習分析技術,引入用戶畫像技術,從用戶基本屬性、閱讀狀態、學習風格、閱讀興趣偏好四個維度構建用戶多維畫像模型,才能在后疫情教育環境下順利開展個性化資源推薦服務,滿足學生用戶多維度閱讀學習需求。

1 文獻回溯

1.1 個性化推薦

個性化推薦的概念出現于1994年,最初是由Resnick首次提出的[4]。通過梳理國內外關于個性化推薦的研究發現,目前得到廣泛應用的推薦算法主要有基于內容的推薦、基于協同過濾推薦、混合推薦三種方式[5]。

基于內容的推薦算法主要是運用用戶以往對資源項目的興趣偏好建立用戶特征庫,評估項目與用戶興趣之間的相關性,將相似項目推薦給目標用戶[6]。整個推薦算法只是和項目本身的屬性特征與某個用戶產生的歷史行為數據有關?;趨f同過濾推薦的方法是計算用戶之間的相似度,然后依據與當前目標用戶相似度較高的用戶對其他項目的評價來預測目標用戶對特定項目的偏好程度,最后依據用戶推薦列表TOP-N實現推薦[7]。該方法需要構建用戶與項目評分矩陣、計算用戶相似度、選擇最近鄰居、預測評分、產生推薦五個步驟[8]?;趦热萃扑]和協同過濾推薦都有各自優點,同時都存在一些缺陷,所以后來研究者提出了混合推薦模型,將主流的推薦方法融合起來,避免某些單一推薦的缺陷[9]。例如,申云鳳以用戶行為數據為基礎,采用協同過濾和蟻群算法相結合,構建出個性化學習路徑推薦模型[10];熊回香等將基于內容和協同過濾算法相結合,提出基于LDA標簽混合推薦模型,運用語義關系提高了相似度計算的準確性[11]。

基于內容的推薦算法、協同過濾推薦算法以及混合推薦算法,每種算法各有特點,同時每種算法都有自身的局限性,無論哪種算法,其最核心的基礎是用戶偏好的獲取[12]。但是,國內外現有的研究大多重點在于推薦算法的研究,從用戶個體角度出發來關注推薦過程中用戶本體特征的較少。即使有少部分的研究,但是傾向于用戶的歷史學習興趣推薦類似的學習資源。

1.2 用戶畫像

用戶畫像(Persona)最初由庫珀(Cooper)提出,主要是依據用戶社會屬性、生活習慣和消費行為等信息抽象出的標簽化用戶模型[13]。用戶畫像最初應用于商業營銷、計算機科學等領域,多用于信息資源推薦服務以及精準營銷方面。后來,用戶畫像技術逐漸向管理學、經濟學、人文社科領域發展,逐步呈現出明顯的跨學科特征[14]。

近年來,用戶畫像逐步應用到高校數字圖書館領域。用戶畫像可基于大規模存儲數據、機器學習算法進行數據挖掘,構建用戶特征,將行為隱式數據轉化為顯式可視化數據,為個性化推薦提供服務。國內關于用戶畫像在數字圖書館的應用偏向于用戶畫像的構建理論探究與應用推廣。例如,尹婷婷等結合用戶畫像技術從數據來源、數據整合、數據挖掘層級探討高校圖書館個性化服務的應用模式 [15];劉海鷗等人在用戶多維度標簽構建模型基礎上引入情境化推薦方法探究數字圖書館大數據知識個性化推薦服務[16];張莉曼等從用戶表層行為和深層驅動設計畫像標簽,利用與用戶強關聯的動態小數據實現用戶畫像的構建[17];王順箐采集用戶需求的數據構建智慧推薦系統,以用戶個人喜好和實時需求實現針對用戶的無差別推薦[18];肖海清構建基于參與式用戶畫像的高校圖書館精準推廣模式,重點對于個體和群體閱讀推廣進行探討[19]。

以上相關研究成果為本研究提供了參考和借鑒,但是通過用戶畫像相關研究的梳理,發現國內在圖書館領域的用戶畫像研究缺少從用戶多維度構建畫像特征,同時未考慮用戶閱讀過程中興趣偏好轉移的因素等。此外,在高校圖書館推薦系統冷啟動時期,大多研究僅僅依靠靜態數據構建用戶畫像個性化閱讀資源推薦依據,未結合知識本體角度考慮資源相似度計算結果進行實際推薦?;诖?,本研究提出大數據下基于用戶畫像的高校數字圖書館個性化閱讀資源推薦服務,以期解決這些問題。

2 用戶畫像的構建

2.1 高校圖書館用戶畫像構建流程

用戶畫像構建的精準性往往會影響到個性化推薦結果的滿意度。用戶畫像的刻畫一般涵蓋需求、興趣、性格等多個屬性[20]。高校數字圖書館用戶畫像的數據來源通常包含問卷調查、訪談、閱讀學習行為、閱讀學習日志等。用戶畫像為進一步快速準確分析用戶特征提供了足夠的數據基礎,完全將用戶特征抽象提取出來,可以看作是個性化推薦中應用大數據的根基。

本研究重點從數據基礎層、數據處理層、畫像構建層、畫像服務層四個層級考慮用戶畫像的構建流程,具體如圖1所示。其中數據基礎層和數據處理層是底層階段,而畫像構建層是用戶畫像的關鍵層級,同時該層級的構建結果是畫像服務層推薦的依據。

數據基礎層主要是考慮用戶畫像構建的基礎數據來源。該層級包含兩部分基礎數據,一類是顯式獲取的數據,例如學習風格量表調查、用戶基本屬性問卷調查等;另一類是隱式動態數據的挖掘,包含用戶對閱讀資源標記的行為、點擊鏈接行為、互動行為等數據。數據處理層需要搜集數據基礎層數據,然后進行梳理歸類,能夠結合用戶畫像構建層中用戶畫像的維度進行數據的分類預處理。例如,畫像構建層需要了解用戶的閱讀興趣偏好,需要在處理層建立用戶對于閱讀學習資源項目的評分矩陣或者標注行為矩陣。畫像構建層在構建用戶畫像過程中需要對數據處理層預處理的數據進行分析挖掘,主要圍繞用戶一般屬性特征、閱讀準備狀態、學習風格、閱讀興趣偏好等行為特征來完成畫像模型的構建。該層級除了完成用戶個體畫像構建外,還需要采用聚類分析、相似度分析、關聯分析等方法實現用戶群體畫像的構建。用戶群體畫像的構建主要是為畫像服務層相似用戶進行個性化推薦預測和診斷;畫像構建層完成后,推薦系統就可以依據用戶畫像特征完成畫像服務層的推薦業務。在實現推薦過程中,可以依據用戶畫像完成與數字圖書館閱讀資源相似度匹配、個性化閱讀路徑定制、用戶群體中個體閱讀行為的預測分析等。

2.2 高校圖書館用戶畫像特征模型構建

在用戶畫像構建過程中,考慮從多維層次進行。用戶畫像特征模型用UserPersona表示,主要包含用戶基本畫像(UserInfo)、用戶學習風格畫像(UserStyle)、用戶閱讀狀態畫像(UserReady)、用戶閱讀興趣偏好畫像(UserPre),即UserPersona={ UserInfo,UserStyle,UserReady,UserPre}。

2.2.1 用戶基本屬性畫像(UserInfo)

對于剛剛進入數字圖書館資源閱讀平臺的新用戶,系統首先需要在用戶正式閱讀學習前搜集用戶個體屬性特征畫像數據,主要包括用戶一般基本特征屬性。通過問卷顯式方式調查用戶的性別、年齡、計算機使用水平、專業、國籍、平臺使用意向等個體靜態特征信息,即UserInfo={Gender,Age,computerSkill,major,……}。該部分信息的搜集主要是在閱讀行為發生前采用問卷調研方式完成。

2.2.2 用戶閱讀狀態畫像(UserReady)

用戶閱讀狀態畫像主要是了解用戶原有閱讀知識結構的起點以及狀態。某個用戶開始閱讀前可以依據用戶基本特征編寫相應前測試題,通過測試了解該用戶知識結構的起點,整個知識結構采用向量進行標記,用戶閱讀起點位置可以用向量Vector標記。閱讀學習過程中,用戶對于某個向量標記的知識內容是否閱讀則采用閱讀狀態Status表示,0表示未閱讀,1表示閱讀中,2表示已完成閱讀。即閱讀準備狀態畫像UserReady={Vector,Status}。

2.2.3 學習風格畫像(UserStyle)

學習風格畫像采用Felder-Silverman學習風格調查結果作為依據,如圖2。不同用戶在數字圖書館中進行資源閱讀時,不同學習風格偏好的資源呈現方式也會存在差異。目前學習風格模型的研究有Kolb學習風格模型、Dun學習風格模型及Felder-Silverman學習風格模型等,已有研究表明Felder-Silverman學習風格模型使用率較高[21],其模型分為信息加工、感知、輸入、理解四個維度,其中信息加工分為活躍型和沉思型,感知分為感悟型和直覺型,輸入分為視覺型和語言型,理解分為序列型和綜合型,即UserStyle={active,Contemplative,Visual,Listening,Auditory,Linguistic……}。用戶在具體閱讀過程中,學習風格也會受到閱讀環境和情境等影響,不斷發生新變化。此外,由于前測采用的是顯式調查方式,沒有將用戶隱式閱讀行為體現的風格挖掘出來。在前期調查結果基礎上,后續閱讀學習過程中需要結合閱讀資源的學習行為模式,不斷完善和更新學習風格畫像。

2.2.4 用戶閱讀興趣偏好畫像(UserPre)

用戶閱讀興趣偏好畫像主要是以用戶閱讀過程中對于數字圖書館閱讀資源標注行為的關注度來查看用戶的興趣偏好行為,而對于用戶喜歡哪一種閱讀資源的呈現方式,這個已在學習風格畫像刻畫中進行標記。同時,對于用戶標注的感興趣閱讀資源以及資源之間存在的概念關系應該有所記錄。例如,采用LCi表示用戶感興趣的閱讀資源,RCi表示閱讀資源之間的相互關系。用戶閱讀興趣偏好畫像主要關注用戶近期閱讀興趣偏好以及閱讀過程中持續閱讀興趣偏好兩個方面。近期閱讀興趣偏好主要關注用戶當前閱讀過程中的興趣,而持續閱讀興趣則是關注用戶在閱讀學習過程中的閱讀興趣是否發生偏移。即用戶閱讀興趣偏好畫像UserPre={LCi,RCi,RPre(Tagt) , ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 。

(1)用戶近期閱讀興趣偏好RPre(Tagt)。用戶近期閱讀興趣的偏好可以通過使用用戶最近標注閱讀資源使用的標簽進行計算,用戶近期推薦資源的偏好依據標簽記為RPre(Tagt),用戶當前閱讀時間記為Recent,用戶最近一次使用標簽t標注閱讀資源的時間記為 ? ? ? ? ? ? ? ? ? ,用戶第一次使用某個標簽標注閱讀資源記為 ? ? ? ? ? ? ? ?。具體計算方法為:

公式(1)

RPre(Tagt)計算得出的結果作為用戶當前閱讀興趣偏好標簽,然后使用相似度計算得出資源標簽和用戶興趣偏好RPre(Tagt)的相似度。

(2)用戶持續閱讀興趣偏好 ? ? ? ? ? ? ? ? ? ? ? ? ? ? 。在實際閱讀過程中,除了要考慮用戶近期閱讀興趣的偏好,還需要考慮用戶階段閱讀過程中閱讀興趣偏好是否繼續持續的問題,因為用戶的興趣偏好往往會隨著時間的推移而發生改變。研究中采用已有的研究使用用戶的持續興趣偏好指標作為參考依據,該方法關于用戶的持續興趣通過用戶持續使用某個標簽標注信息資源的時間跨度進行計算[22],在實際應用中可以作為用戶持續興趣偏好的計算依據。計算方法如下:

公式(2)

其中,用戶最后一次使用某個標簽標注閱讀資源記為LastTag,用戶第一次使用標簽t標注閱讀資源的時間記為TagFirst(Tagt),用戶持續興趣偏好記為PersistentPre(Tagt),其取值越接近1,說明用戶興趣一直持續;如果取值越接近0,則說明用戶的閱讀興趣發生了偏移,關注主題有所變動。如果學生閱讀興趣偏好發生偏移,則可以利用用戶興趣偏好記錄中感興趣知識之間的關系RCi進行延伸擴展推薦。同時,也可以結合用戶閱讀準備狀態中用戶閱讀狀態和閱讀資源本體之間相互結構關系作為新閱讀資源偏好推薦的輔助依據。

3 基于用戶畫像的個性化閱讀資源推薦服務設計

數字圖書館在實施閱讀資源推薦過程中,往往會關注系統冷啟動的推薦和基于用戶閱讀過程行為數據的推薦。冷啟動的推薦策略主要解決系統中數據稀疏的問題;基于閱讀過程的行為數據推薦,則是將用戶興趣偏好畫像、用戶閱讀準備狀態畫像考慮在其中。閱讀過程的行為數據分析恰恰是挖掘用戶興趣偏好的主要數據來源。

3.1 基于冷啟動用戶畫像的個性化推薦

在數字圖書館平臺推薦中,用戶未閱讀資源前往往存在數據稀疏問題。本研究構建的多維度用戶畫像UserPersona可以解決平臺中冷啟動問題,數字圖書館平臺推薦中的冷啟動一般主要分為新用戶冷啟動、新閱讀學習資源冷啟動兩種情況。新用戶啟動指用戶首次進入平臺,平臺中沒有任何該用戶閱讀行為數據,沒有辦法依據已有歷史行為數據找到相似用戶實現推薦。因此,無法建立用戶畫像模型,不能針對該用戶進行個性化閱讀資源推薦。新閱讀資源冷啟動指的是新的閱讀資源加入到平臺中,沒有任何對該閱讀資源項目的閱讀評分數據,無法找到該資源項目的相似最近鄰,無法將新的閱讀資源推薦給可能感興趣的用戶,不利于潛在用戶的挖掘。

針對新用戶冷啟動的問題,目前大多研究已解決該問題,可以采用靜態數據刻畫用戶畫像,或者采用基于協同過濾推薦的方法。利用靜態數據刻畫用戶畫像需要調研了解用戶基本屬性、學習風格等顯式獲取的數據,然后依據數據刻畫的用戶畫像進行閱讀資源的推薦。而采用基于協同過濾推薦的方法則是比較成熟的推薦方法,需要先計算出用戶之間的相似度,然后依據與當前目標用戶相似度較高的用戶對其他閱讀資源的評價來預測目標用戶對特定閱讀資源的偏好程度,最后依據用戶推薦列表TOP-N實現推薦。而用戶之間相似度計算的前提是需要了解用戶的特征,依據用戶基本屬性、學習風格、閱讀準備狀態等數據刻畫用戶畫像。但是由于處于推薦冷啟動階段,所以用戶畫像的數據來源還是以靜態數據為主。

對于新閱讀資源冷啟動的問題,可以從閱讀資源片斷知識本體的角度考慮。由于數字圖書館平臺在解決新用戶的問題時,對于用戶特征畫像構建采用了學習風格等,所以在考慮新學習資源冷啟動問題時,也會考慮同一閱讀資源項目的不同呈現方式,資源呈現方式的依據則是參照用戶在學習風格各維度的類型。整個平臺中閱讀學習知識的呈現從本質講都是一種樹狀結構,各個閱讀資源單元片斷所屬章節知識點存在樹形關系,可以利用學科知識圖譜形式展示。學科知識圖譜需要了解學科知識點結構圖,將學科內知識點關系用領域本體表示,閱讀資源片段結構具體如圖3所示。

資源A可以看成某個專題的根知識點,資源x和資源y可以看成其他專題知識點,資源B是該專題下某一個進階知識點,最底層的e、n、f、i、h、m、l是最小學習單元的閱讀資源項目,每個最小知識單元提供不同資源呈現方式。例如,最小閱讀單元資源項目m,呈現該資源的文本、圖片、音頻、視頻、交互學習等不同閱讀資源方式。因此,在實際進行閱讀資源推薦的過程中,如果要計算兩個閱讀資源項目的相似度,只需要考慮閱讀資源單元層面就可以,至于推薦閱讀資源類型是和用戶學習風格畫像數據有關。針對閱讀資源的樹狀結構,在解決新閱讀資源冷啟動問題中使用P.Ganesan最早提出基于邊權重和有向節點的概念距離相似度計算[23],該方法主要是在推薦中用于計算兩個項目實例的相似度,在樹狀層次結構中越靠近的節點,其相似度越高。同時,資源知識點存在進階關系,在圖中可以用父子節點關系來表示。閱讀資源在知識結構體系中可能存在多重繼承關系,知識之間存在網狀分布關系,知識點閱讀資源項目m、n可能存在多種層次相關路徑。例如閱讀資源項目e可以看成閱讀資源項目D1 的子節點,閱讀資源項目D1是閱讀資源項目e的上一層級父節點。在利用圖3閱讀資源本體片段樹形結構圖的基礎上,兩個知識點閱讀資源項目m、n相似度采用層次距離相識度來識別。具體計算方法如下:

公式(3)

其中,ANC(m,n)指的是閱讀推薦平臺樹狀閱讀資源中項目m、n距離最近的共同祖先,depth(m)表示從根節點開始到閱讀資源項目m上一級父節點的距離長度,depth(n) 表示從根節點開始到閱讀資源項目n上一級父節點的距離長度。由圖可知,ANC(e,n)是D1,ANC(e,f)是C1,ANC(n,f)是D2,ANC(m,n)是B,ANC(i,m)是D3。以閱讀資源項目m和項目n相似度、閱讀資源項目e和項目n相似度計算為例,依據公式(3)計算出兩者的層次距離相似度為:

通過計算結果看出,項目e和項目n可以作為同類閱讀資源互相推送的列表選項。如果數字圖書館平臺后續有新加入的閱讀資源,依據新加入閱讀資源在知識本體結構圖所處的網狀位置計算該資源與其他資源的相似度。但是,這種算法只是找到了資源項目之間的相似度,是從知識本體領域考慮的,對于資源呈現方式未做考慮。因此,在具體實施推薦過程中,還需要參考前期學習風格畫像構建的結果,依據用戶學習風格畫像選擇合適的資源呈現方式推送給用戶。

3.2 基于閱讀過程用戶畫像的個性化推薦

基于閱讀過程用戶畫像的個性化推薦需要重點考慮閱讀行為數據,通過挖掘分析刻畫出個體畫像特征,同時需要采用聚類分析構建群體畫像特征。本研究結合閱讀行為不斷完善和定期更新前期靜態數據調研獲取的學習風格畫像,其中每個學習風格維度中,“+”表示支持前一種類型學習風格,“-”表示支持后一種類型學習風格。例如,在信息加工維度,用戶訪問論壇的次數越多,則說明該用戶閱讀過程的活躍度越高,屬于活躍型用戶;在論壇回復的有效帖子越多,則說明該用戶善于對閱讀知識進行分析討論,積極參與,也屬于活躍型。在閱讀過程中,用戶閱讀行為屬于動態數據,對于該數據進行分析可以作為用戶學習風格更新和完善的重要依據。在進行具體閱讀行為模式分析時,結合內容瀏覽、內容停留、論壇訪問、論壇發貼、交互協作等行為進行更新。如在構建信息感知維度畫像時,用戶在閱讀案例有停留行為記錄,可以在感悟型維度進行“+”標記表示支持該類型;如果用戶在進行閱讀知識測試過程中進行多次嘗試,表示用戶缺乏冷靜思考感悟,屬于視覺型用戶,則在視覺型維度用“-”標記表示支持該類型。

閱讀準備狀態畫像和閱讀興趣偏好畫像屬于動態變化數據,所以用戶畫像需要在閱讀過程中動態迭代更新。用戶狀態畫像是對于用戶閱讀路徑、閱讀進度的刻畫,而閱讀興趣偏好畫像是關于用戶近期的偏好和偏好持續性問題進行分析,這些信息可以完全了解用戶的閱讀學習位置和興趣偏好,體現了用戶隨著閱讀學習不斷推進而發生改變的動態信息。此外,結合用戶基本屬性畫像、修改完善后的學習風格畫像構建出用戶畫像。之后,可以采用相似度匹配,計算數字圖書館資源庫資源特征和用戶畫像特征的相似度。同時,推薦過程也可以計算兩個用戶畫像之間的相似度,其相似度的計算方法類似。目前,研究中使用改進后的Prefix Span算法篩選出具有相似特征的用戶,如公式4所示[24]。公式中,和表示用戶a和用戶b的畫像特征數據,和表示用戶a和用戶b 畫像特征的數據均值。

公式(4)

利用相似度計算以及在閱讀行為模式進行個體用戶畫像的修正等,這是基于用戶畫像實現個性化閱讀資源推薦服務的一部分。當然,在個體用戶畫像構建方面,有學者利用人工神經網絡、蟻群算法等實現個性化閱讀推薦路徑。然而,這些研究都只是針對用戶個體畫像的推薦內容。在實際推薦服務實施過程中,有時需要基于用戶群體分析,依據用戶群體特征提供差異化的閱讀學習支持服務進而改善閱讀參與度。此外,需要通過構建用戶群體畫像來對群體內個體用戶進行分析診斷,起到閱讀學習預警作用。

用戶群體畫像構建常用的方法就是聚類分析,在聚類分析算法中,典型的就是K-Means算法。K-Means算法是基于距離的聚類函數,距離越遠其相似度越低[25]13。前期構建出用戶個體畫像后,從用戶個體畫像庫中隨機抽取n個元素作為聚類時簇的中心,分別計算用戶個體畫像庫中其他所有個體畫像到n個簇的中心的距離,盡最大可能將個體畫像元素歸劃到離某個簇最近的類中。同時,需要選取簇中所有元素各自維度的平均數作為n個簇各自的中心。隨后,采用反復循環聚類計算,每次計算是對于個體畫像庫中去除簇中心的元素后重新計算,直到最后的每一輪計算結果和上一輪計算結果差異性較小時即可完成,最終將聚類結果輸出。

用戶群體畫像構建完成后,要實現個性化閱讀推薦服務就需要考慮用戶群體與數字圖書館平臺資源庫資源之間的相似度問題。在用戶群體推送上可以采用KNN算法,KNN算法的核心就是依據樣本群體特征將目標項目產品直接分類對應到樣本群體中[25]14。采用KNN算法可以將用戶個體畫像聚類后的群體畫像作為樣本特征集,然后抽取數字圖書館平臺資源庫中資源,計算樣本特征集每一個群體畫像樣本與圖書館資源庫中資源特征的相似度,然后將對應用戶資源距離的遠近形成推薦列表,選取TOP-N資源分類到用戶群體中作為基于用戶群體畫像推薦的閱讀學習資源內容。

用戶群體畫像的構建除了實現群體推薦服務外,還可以參照同一用戶群體內某些特征對于用戶的閱讀狀態進行預警分析。預警分析一般采用的方法就是離群數據挖掘與分析技術[26],而在本研究中只需要利用用戶閱讀群體聚類分析結果和上次結果對比分析即可,找出本次聚類不在該閱讀學習群體的用戶,針對這些用戶發出閱讀學習警示信息。如果在兩次以上聚類分析中發現某個用戶都不在這些群體內,就需要考慮該用戶閱讀學習可能存在危機,未按時完成閱讀學習任務,需要重點關注。當然,也可以通過設定閾值等,低于目標閾值時有針對性地給出閱讀學習預警,提供適合用戶特征的個性化干預方案,減少閱讀資源學習停滯行為或者缺失率高的現象發生。

4 結語

隨著數據挖掘、學習分析技術等不斷發展,為高校圖書館在線閱讀提供了更大的發展空間,特別是目前處在后疫情時代,部分高校仍采用線上教學的方式,涌現了大量的免費閱讀學習資源。那么,用戶在閱讀過程就會面臨信息過載或者信息迷航的問題,如何在閱讀中滿足用戶的個性化資源需求是當前后疫情時代需要高校數字圖書館平臺面對的重要挑戰。

本研究在分析了目前個性化推薦和用戶畫像研究的基礎上,引入用戶畫像技術從數據基礎層、數據處理層、畫像構建層、畫像服務層四個層級設計探討用戶畫像的構建流程,重點在用戶畫像構建和畫像服務層面進行闡述,同時從用戶基本屬性、閱讀準備、學習風格、閱讀興趣偏好四個維度構建用戶多維畫像模型,并提出基于冷啟動用戶畫像和閱讀過程用戶畫像的個性化推薦服務策略。然而,研究不足之處是如何針對用戶畫像進行預測推薦在研究中僅僅依靠用戶群體來實現,后續研究應該考慮進一步結合神經網絡算法、機器學習等主流技術,通過歷史數據的模型訓練完成對于用戶未來的閱讀行為進行預測,為用戶提供精準的閱讀資源推薦服務。不論大數據支撐下的閱讀行為分析技術如何完美、個性化閱讀資源推薦服務如何精妙,整個分析過程終究是拿歷史數據來預測未來發展,但是通過大數據技術創建個性化定制閱讀是極具誘惑力、吸引力,同時在改善用戶閱讀滿意度等取得了顯著的效果,所以后續值得廣大圖書情報領域研究者繼續深入研究和探討。

參考文獻:

廖運平,盧明芳,楊思洛.大數據視域下智慧圖書館用戶畫像研究[J].國家圖書館學刊,2020,29(3):73-82.

金慧,王夢鈺,王陳欣.促進教育創新的關鍵技術與應用實踐:2015—2020《地平線報告》的分析與比較[J].遠程教育雜志,2020,38(3):25-37.

尹婷婷,龔思怡,曾憲玉.基于用戶畫像技術的教育資源個性化推薦服務研究[J].數字圖書館論壇,2019(11):29-35.

RESNICK P,IAKOVOU N,SUSHAK M,et al[A].Grouplens:an open architecture for collaborative filtering of net news[C].Chapel hill:In Proceedings of CSCW94,1994.175-186.

郭雪梅.基于社會化標簽的用戶標注行為和時間因素的個性化推薦方法研究[J].情報科學,2020,38(2):68-74.

孫立瑩. 基于組合推薦技術的個性化學習資料推薦的研究[D].大連:大連海事大學,2010.

蘇慶,陳思兆,吳偉民,等.基于學習情況協同過濾算法的個性化學習推薦模型研究[J].數據分析與知識發現,2020,4(5):105-117.

雷秋雨.個性化推薦系統中冷啟動問題研究[D].北京:北京交通大學,2019.

徐朦.基于知識圖譜的個性化學習方法研究[D].貴陽:貴州師范大學,2019.

申云鳳.基于多重智能算法的個性化學習路徑推薦模型[J].中國電化教育,2019(11):66-72.

熊回香,竇燕.基于LDA主題模型的標簽混合推薦研究[J].圖書情報工作,2018,62(3):104-113.

JANNAC D, ZANKER M, FELFERNING A,et al. Recommender system: an introduction[M].蔣凡,譯.北京:人民郵電出版社,2013.

張海濤,崔陽,王丹,等.基于概念格的在線健康社區用戶畫像研究[J].情報學報,2018,37(9):912-922.

吳加琪.我國用戶畫像研究的知識網絡與熱點領域分析[J].現代情報,2018,38(8):130-135,143.

尹婷婷,曾憲玉.用戶畫像視角下數字圖書館個性化信息服務建模與分析[J].新世紀圖書館,2020(4):57-61.

劉海鷗,姚蘇梅,黃文娜,等.基于用戶畫像的圖書館大數據知識服務情境化推薦[J].圖書館學研究,2018(24):57-63,32.

張莉曼,張向先,吳雅威,等.基于小數據的社交類學術App用戶動態畫像模型構建研究[J].圖書情報工作,2020,64(5):50-59.

王順箐.以用戶畫像構建智慧閱讀推薦系統[J].圖書館學研究,2018(04):92-96.

肖海清,朱會華.基于參與式用戶畫像的高校圖書館精準閱讀推廣模式構建[J].圖書館工作與究,2020(6):122-128.

陳丹,羅燁,吳智勤.基于大數據挖掘和用戶畫像的高校圖書館個性化服務研究[J].圖書館研究與工作,2019(4):50-53,59.

李寶,張文蘭.智慧教育環境下學習資源推送服務模型的構建[J].遠程教育雜志,2015,33(3):41-48.

張炎亮,張超,李靜.基于動態用戶畫像標簽的KNN分類推薦算法研究[J].情報科學:1-5.

GANESAN P, GARCIA-MOLINA H, WIDOM J.Exploiting hierarchical domain structure to compute similarity[J].ACM Trans.Inf.Syst.,2003,21(1):64-93.

趙呈領,陳智慧,黃志芳.適應性學習路徑推薦算法及應用研究[J].中國電化教育,2015(8):85-91.

張炎亮,張超,李靜.基于動態用戶畫像標簽的KNN分類推薦算法研究[J/OL].情報科:1-5[2020-06-12].http://kns.cnki.net/kcms/detail/22.1264.G2.20200521.1637.044.html.

金義富,吳濤,張子石,等.大數據環境下學業預警系統設計與分析[J].中國電化教育,2016(2):69-73.

李 寶 安康學院電子與信息工程學院講師。 陜西安康,725000。

(收稿日期:2020-06-15 編校:謝艷秋,陳安琪)

猜你喜歡
用戶畫像
基于數據分析高校學生自畫像的初探
分析用戶畫像在企業精準營銷中的應用方式
基于用戶畫像的數字原住民社會化媒體采納意愿的階段性分析
基于大數據技術的廣電用戶收視行為建模
基于大數據的電商活動頁面設計策略研究
用戶畫像在內容推送中的研究與應用
貝葉斯網絡在用戶畫像構建中的研究
把聲音的魅力發揮到極致
移動用戶畫像構建研究
基于微博的大數據用戶畫像與精準營銷
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合