?

用戶畫像在圖書館信息服務中的應用

2019-02-20 13:10賈薔
數字圖書館論壇 2019年7期
關鍵詞:畫像標簽個體

賈薔

(首都圖書館,北京 100021)

近十年,我國圖書館事業處于快速發展中。在大規模興建各級圖書館的同時,圖書館也在認真思考未來發展的方向。圖書館承擔以滿足知識信息資源需求為基礎的信息服務,如何提供更為精準與定制化的服務,成為業界日益關注的焦點。

隨著大數據技術的應用及用戶需求的多元化,圖書館服務逐漸向集中、開放的網絡平臺轉移,對用戶和資源數據的分析為關注重點,了解用戶需求,采用現代信息技術手段,拓展新型服務模式,從而滿足用戶精細、精準和個性化需求,有助于信息服務價值的體現。這就為大規模收集用戶數據、開展以用戶為中心的信息服務研究提供了可能。用戶畫像可以勾畫出用戶信息全貌,挖掘信息資源與用戶的內在關系,完成發現與提煉,深入揭示潛在信息服務模式和規律,最終在海量數據中轉化為精準信息資源數據,以滿足用戶的個性化信息需求。

1 用戶畫像的概念

Cooper最早提出用戶畫像的概念,指出用戶畫像是真實用戶的虛擬代表,是建立在一系列真實數據上的目標用戶模型[1]。Travis[2]更進一步提出用戶畫像的7個條件,即基本性、移情性、真實性、獨特性、目標性、數量、應用性。

用戶畫像是用戶基本屬性、生活習慣和消費行為等因素信息,通過信息識別,完成貼“標簽”的核心工作。標簽通常是精練的特征標識(如年齡、性別、興趣等),將所有標簽集合起來,可以勾勒出該用戶的“畫像”[3]。

用戶畫像最先應用于電子商務和門戶平臺,如阿里巴巴、京東、百度等科技公司已在多年前就開始著手用戶畫像的建構,基于已有信息數據,分析用戶關注點、興趣點,推測用戶潛在需求,從而制定精準、優化的營銷策略,對推送個性化服務產生了積極作用,引領與帶動潛在消費、拓展用戶,亦收到很好的經濟效益。

查詢cNKI可知,截至2018年12月,共檢索到相關論文205篇,學科分布集中在計算機、工商管理、商業經濟等領域。圖書檔案情報學科共計43篇,其中2014年李業根[4]在《圖書館學刊》發表的《基于大數據的圖書館信息營銷策略》,標志著用戶畫像的到來??v覽圖書檔案情報學科用戶畫像相關論文,發現研究多集中于資源推薦、知識發現和數據模型與算法等內容,而用戶畫像在圖書館服務應用中所能達到的深度與廣度尚在探討與摸索階段。

2 圖書館用戶畫像的構建

在大數據全面推廣的社會背景下,圖書館所擁有的信息數據顯現出多維度、多層次交叉重疊的特性,其中個體信息數據和行為信息數據尤為重要。用戶畫像是基于圖書館用戶信息數據分析平臺,運用統計分析與數據算法等技術集群,完成各類異構系統的數據挖掘技術。通過對信息數據的挖掘、分析及顯現,精準勾畫出用戶需求畫像,從而提供精準化、定制化的信息服務。

用戶畫像是在海量數據基礎上產生的,通過確認數據來源、用戶數據的分析與處理、用戶畫像數據標簽和用戶畫像模型構建等過程,對個體用戶和用戶群準確地標簽化,從而細致描繪出用戶特征。

2.1 獲取異構系統中用戶數據,建立關聯關系

作為構建用戶畫像的基本要素,圖書館需要大量的可用于數據處理的基礎數據,這些基礎數據可以最大限度地顯現個體用戶信息、行為信息;基礎數據的全面獲取,可以提高用戶畫像的精準度。

用戶畫像數據被保存在不同的異構系統中,數據之間沒有融合甚至沒有關聯,且數據獲取時需要從不同系統中逐項單獨獲取,整個獲取過程的進度與系統集群的規模有直接關系。獲取的數據來源可分為基本數據和變化數據?;緮祿鄬Ψ€定,主要由用戶自身數據組成,包括用戶基本信息,如性別、年齡、職業、聯系方式和地址等,其更新點大多是聯系方式和地址。

變化數據是相對復雜的用戶行為痕跡信息,行為日志數據、興趣數據、交互數據等都是變化數據,其來自用戶在文獻利用時產生的使用數據、獲取知識庫的交互數據、移動端的訪問數據,甚至用戶的登錄次數、登錄設備、頁面瀏覽時長、頁面點擊位置信息和頁面復制粘貼內容等[5],這些數據會隨著用戶環境、焦點興趣、社會趨勢等不斷變化。

基本數據與變化數據分別從各種異構系統中采集出來,借助統一認證和用戶管理手段,識別與獲取用戶行為數據[6],把握和跟蹤用戶需求變化[7]。當某位用戶的借還記錄與上網行為記錄完成同一比對認證后,其自身的基本數據和變化數據就構成了個體畫像數據;當大量與該用戶相似的個體共性數據被識別,這位用戶所屬的群體數據即形成,無形中群體關聯關系得以建立。關聯關系具有動態屬性,個體變化數據的不斷改變,決定并影響了個體數據在群體數據歸屬的持續重組與更新,此時這位用戶所在的群體會發生改變。關聯關系的建立是提高信息服務有效性和專指性的必要條件,是用戶畫像模型構建的基礎。

2.2 全面準確地獲取多類型用戶數據,整合得到有效數據

用戶數據具有采集來源廣、數量大的特點,并且由結構化、半結構化和非結構化的數據組成,其中半結構化與非結構化數據超過大數據總量的85%[8]。結構化數據主要是個體數據、借閱數據和日志數據,雖然依自身結構利用的需要存儲于不同的系統模塊中,但存儲要求基本統一,存儲位置相對固定,數據較為規范、差錯率可控。相對而言,這類數據容易獲取和分析。

半結構化和非結構化數據大多是行為數據,產生于不同的系統模塊中,如書目檢索系統中的檢索數據、電子閱覽管理系統的登錄數據、網頁界面的瀏覽數據、數據庫操作數據等。由于數據產生的形式不同,標準與規范各不相同,存儲方式與數據格式具有一定的獨享性,獲取與分析相對復雜。以整合系統、統一管理數據為基點,使采集各類數據、完成數據清洗操作更加便捷和可操作[9]。

對用戶數據進行整合、清洗、認證、管理,從而得到用戶畫像的有效數據。無用數據是與用戶數據無關的數據,包括干擾數據和噪聲數據,如登錄數據中的進程中斷產生的錯誤數據、讀者數據中修改前的個人口令數據、檢索數據中輸入的誤操作數據等。剔除這些數據需要運用數據挖掘技術手段,從而達到清洗的目的,有利于數據的精準和有效,對之后開展信息服務的準確性提供有效數據的保證。

2.3 通過個體標簽描述,建立用戶標簽體系

用戶畫像的核心就是完成用戶標簽描述,即給用戶打標簽。用戶畫像標簽體系的建立,以人為干預為前提,梳理與排除數據挖掘過程中產生的數據偏差,概括與制定精練的標簽特征標識。標簽通常是年齡、性別、興趣等,將所有標簽綜合后,可以勾畫出該用戶的“畫像”[3]。

用戶數據標簽化的目的,是將處于模糊狀態下的用戶個體形象化、生動化,并通過打標簽的方式,將其個體特征信息有效揭示。具體實施過程是采集獲取用戶數據,包括用戶基本信息、用戶行為信息、互動上傳操作信息等數據,提煉關鍵信息點,利用主題詞表或者其他可作為標簽詞表的參照詞表,基本形成與用戶畫像需求相匹配的標簽詞表。標簽詞表的維度不宜過粗或過細,過粗起不到區分的作用,過細不具有典型性和代表性,維度的粗細可在打標簽中不斷完善。

每個用戶的個體標簽的數量取決于用戶個體產生的行為和生成數據的多少。用戶標簽的可識別性為信息服務的定制化和專屬化提供依據。其中,對用戶基礎特征的描述數據包括性別、年齡、職業數據等;對用戶在各類系統的操作行為描述,用來反映用戶潛在特征的數據包括借閱、點擊登錄、網頁瀏覽、資源下載等行為數據。依據相鄰歸類、聚類算法,形成聚合后的上位類標簽[10],利用現有的標簽詞表以簡單直觀地打標簽方式將用戶畫像的特征逐一顯現出來,當標簽描述與分析維度契合后,進而匯合成為標簽群和標簽集群,最終建立用戶畫像數據標簽體系,為信息服務的用戶畫像模型構建提供指引和幫助。

2.4 利用大數據及其算法,搭建用戶畫像模型

圍繞用戶自身及日常行為來構建用戶畫像模型,提供個性化服務,以用戶的需求、習慣和興趣喜好為精準推送點。

構建用戶畫像模型過程中,可以利用文本挖掘與分析、過濾與推薦算法、自然語言處理、聚類算法、關聯規則等大數據技術,進行用戶數據建模,結合機器訓練學習來完成數據模型的不斷修正與精準,隨著用戶變化數據的更新,模型也會同步更新和優化,從而得到精準有效的數據模型,為后續數據處理提供保障。

用戶畫像模型的構建可分為三層,即數據來源層、數據分析整合層及數據挖掘層。

數據來源層是用戶畫像的原始基礎數據層,其數據形式由原始數據服務的系統功能決定,按照一定的順序排列并存儲在相應的系統中。

數據分析整合層是實現跨系統數據獲取、整合的數據層,其通過數據清洗等技術手段對原始數據進行前期處理,運用專業技術進行數據分析,建立用戶畫像的有效數據集群;同時,數據分析整合層還要兼顧用戶變化數據的時時更新,以確保數據分析過程中產生的新數據或者更新數據,可以及時劃入數據分析范圍。

數據挖掘層是用戶畫像構建過程中的關鍵層,它是在利用數據分析整合層的前期處理結果,結合用戶畫像標簽體系,完成對用戶的比對與識別,采用數據挖掘等技術對用戶進行聚類分析,建立數據模型,從而實現用戶畫像的直觀展現。數據挖掘層需要從多角度多維度組合進行數據挖掘,包括行為規律的挖掘、知識庫的挖掘、空間利用的挖掘、利用周期的挖掘和需求采集的挖掘等多種組合方式。

最后,通過用戶畫像的模型預測,可以對用戶未來行為進行預測判斷,使用戶特征得以具體化、形象化,從而完成精準推送服務,為用戶提供全方位、個性化的特定服務,增強與用戶的互動交流,最終提高信息資源的有效利用率。

3 用戶畫像在信息服務中的作用

用戶畫像已經進入公眾生活的方方面面,包括電子商務、aPP、微信、微博等營銷手段和新媒體在內的各個領域,對圖書館用戶畫像的構建起到“試金石”的作用。用戶畫像的應用將是圖書館精準服務的基本條件,甚至可以看作前提條件,為有效的信息服務提供價值幫助?;趫D書館對于知識用戶構建的深入研究,使圖書館領域的用戶畫像應用成為趨勢。

目前,國內的專業圖書館和高校圖書館已經在深入研究與構建用戶畫像,公共圖書館也開始了用戶畫像的構建工作,特別是經歷2017年第6次縣級以上公共圖書館評估定級工作后,服務數據的公眾顯現度被強行列入公共圖書館的服務范疇,但將大數據體系混同為大數據發布系統是知識體系中狹義且片面的認知錯誤。用戶畫像作為大數據體系的重要組成部分,將引領圖書館服務的創新與變革。

3.1 提升信息資源利用效果

深入研究用戶畫像,挖掘與獲取用戶的關注點、興趣點與潛在需求?;谟脩粜枨笤O計構建系統,精準顯現用戶需求,通過對個體信息、行為痕跡及關注點的獲取,了解用戶的資源利用行為,精準推送用戶需求資源,收集用戶畫像對信息資源利用的效果,評估階段時間內資源推送和信息服務精準率的實際利用效果,進而促進知識服務、智能服務[11]。

圖書館信息服務資源中,信息資源繁多各異,用戶選擇難度大、查全率和查準率不高,是用戶利用效果有限的主要障礙。用戶畫像的數據挖掘是完善個性化信息推送與檢索的重要手段,通過深度挖掘用戶的個體畫像信息與關聯信息,結合周期感知的變化與更新,利用數據關聯原則和聚類算法等方式,構建特征用戶畫像群體,完成個體個性化信息推送,提升信息服務質量與有效性,實現對用戶的精準服務。

用戶畫像使得用戶個體信息清晰化,其興趣與行為數據也趨于扁平化,信息資源的精準推送成功率不斷提高,信息資源的實際利用效果顯而易見。以用戶為主體的信息服務,與圖書館信息服務發展方向相吻合,通過對用戶畫像的不斷“繪制”與更新,建立個體用戶標簽庫和標簽庫集群,分析用戶個體與用戶群體的需求動向與趨勢,規劃圖書館的未來發展方向和建設思路,完善資源建設體系、調整空間布局和功能等,從而為科學決策提供依據與參考。

3.2 促進信息服務方式創新

現有的信息服務分為被動推送和主動推送,被動推送一般是根據用戶的文獻借閱與檢索記錄,提供主題詞相關性的信息資源推送,準確性有限、局限性大,還會由于關鍵信息不足導致信息服務推送的偏差。主動推送多是依據借閱記錄和預約記錄,結合主題關鍵詞提供的初級推送服務。

用戶畫像構建完成后,用戶個體畫像已經形成,用戶個體行為的預測會以用戶屬性數據與行為數據為依據,結合用戶自身的多種“變化”,得到用戶個體行為預測的結論。信息資源的服務依據預測結論,可達到用戶信息服務完全的定制化和個性化,提高信息服務的效能。

用戶通過標簽完成聚類與聯合,也通過標簽查找和確定用戶。當信息資源需要完成定向推送時,標簽作為決定性要素,從用戶群中精準選擇有效用戶。例如,攝影類資源的推送,可推送的用戶一般具有的標簽包括攝影攝像、戶外運動、旅行、發燒友等,由于標簽之間存在聯合關系,推送范圍可擴大至地理學、生物學、野外生存等標簽。較之大面積推送,有針對性的推送可以獲得更好的效果,也可以節省人財物力。同理,如果開展主題為戶外運動類的讀者活動時,通過標簽查找,可以精準定位到擁有運動達人、野外探險、旅行家、登山愛好者等標簽的用戶,結合相關宣傳完成主題類信息資源的梳理,將包含主題信息資源和本次活動內容一并推送給這部分群體,活動的關注程度將達到最大化,亦完成了主題信息資源的推送服務。

4 推進圖書館用戶畫像應用的思考

國內用戶畫像的研究與應用正在悄然興起。借鑒用戶畫像在電子商務和門戶平臺成功的應用經驗,結合圖書館用戶畫像的研究現狀,提出以下思考。

4.1 做好用戶數據的隱私保護工作

用戶畫像的研究與應用正在興起,特別是在大數據時代,雖然社會背景與技術手段等為用戶畫像原始數據的獲取提供了基礎,但尚未進入成熟階段,用戶個體信息的隱私憂慮尤為突出。用戶畫像數據中,涵蓋有用戶大量的私人數據,個性化推送服務越精準,則表示其個體數據越全面、數據類型越豐富,這對隱私安全帶來挑戰。Henczel[12]提出可以從只收集必要信息、盡量利用現有信息和確保受訪用戶充分了解收集信息的原因和用途的3個方面,來解決涉及用戶隱私的問題。

圖書館應建立健全信息安全和隱私保護規范,作為安全管理機制的組成部分;加大相應的防火墻模塊功能建設,從技術手段力求杜絕信息威脅;提高技術人員的業務素質與防隱私泄露意識,在數據調取與使用上實行分級管理,嚴格操作流程和手續,確保用戶信息安全。

4.2 更新優化用戶標簽庫以提升用戶體驗

將用戶信息運用立體化交叉分析的描述方法逐項打標簽,一個標簽代表一個維度。以標簽和標簽群的描述為基礎,針對個體用戶的標簽各異且側重不同,用戶標簽庫需對集中特征與重要屬性的標簽予以加權操作和更新加權,不斷優化標簽結構。一方面,用戶畫像處于動態變化中,其個體標簽作為動態變量產生新生標簽,為保證精準推送信息資源,就必須完成動態標簽的實時更新,將動態變化同步至動態標簽庫;另一方面,減少冗余標簽可以幫助建立用戶畫像與用戶數據的映射關系,篩選有效信息。改進用戶畫像的標簽庫是提高用戶畫像準確度的有效方式。

基于個體動態標簽的更新,發現與關注個體用戶的動態變化,及時掌握由于個體動態變化引發的群體動態變化,關注用戶群體的特征,及時了解和預測個體用戶及用戶群的需求,可以提高信息資源的利用率,完成信息資源精準推送,提升用戶體驗。

5 結語

大數據時代下,用戶畫像不斷應用于各領域各行業,但其側重點和用途不同。同樣,當用戶畫像被大眾普遍接受時,圖書館也在積極探索用戶畫像的應用潛能,特別是在圖書館信息服務要求日益精準化、個性化的當下,用戶畫像的發展前景已經被業界廣泛認同。圖書館還需進一步研究如何有效利用大數據分析手段,充分運用數據挖掘技術和分析處理方法,精準分析和預測用戶行為趨勢,從而完成知識數據轉化為有效信息,為信息資源精準推送提供支撐。

猜你喜歡
畫像標簽個體
威猛的畫像
“00后”畫像
畫像
關注個體防護裝備
明確“因材施教” 促進個體發展
無懼標簽 Alfa Romeo Giulia 200HP
不害怕撕掉標簽的人,都活出了真正的漂亮
讓衣柜擺脫“雜亂無章”的標簽
科學家的標簽
How Cats See the World
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合