?

基于數據挖掘技術的數字圖書館個性化服務發展研究

2021-03-10 11:37陳佩欣
科技資訊 2021年36期
關鍵詞:數字圖書館數據挖掘個性化

作者簡介:陳佩欣(1991—):女,本科,助理工程師,研究方向圖書情報。

摘要:隨著互聯網技術的不斷發展,數據爆炸性的整體發展緊隨其后。人們每天都在處理各式各樣的數字化信息,如何在眾多的信息中快速得到人們所需要的信息尤為重要。數字圖書館作為人們獲取信息的重要渠道之一,在幫助用戶找到所需要信息方面不斷進行探索,應用各種信息挖掘技術方法,實現數字資源的個性化建設,是新時期數字圖書館發展的必然服務趨勢。該文將從數字圖書館和數字圖書館的個性化服務發展的現狀展開研究,主要研究了數據挖掘的相關技術、數據探索技術在數字圖書館的發展、促進圖書館的互聯網技術的應用服務提供方面發現的問題,并在此基礎上提出了解決對策。

關鍵詞:數據挖掘 數字圖書館 個性化 服務建設

中圖分類號: G25 ????文獻標識碼:A???文章編號:1672-3791(2021)12(c)-0000-00

Abstract: With the development of IT, digital information developed explosively. People are dealing with all kinds of digital information, how to get the information we need is particularly important. As one of the important ways for people to obtain information, the digital library is constantly exploring in helping users to find the information they need. This article starts from the current status of the development of digital library and digital library's personalized service, mainly researches the related technology of data mining and promotes the service of library's Internet technology. The countermeasures have been proposed to solve problems at the moment.

Key Words: Data mining; Digital library; Personalization; Service construction

在信息技術的飛速發展下,一方面大量的信息內容給現代人的生活帶來了便利,另一方面數量巨大且冗雜的信息也為人們帶來了搜尋上的不便。數字圖書館使用者增加的同時,人們對數字圖書館個性化服務的需求也隨之增加。為了在大量的信息中得到用戶真正需要的信息,數據挖掘技術應運而生。在數字圖書館中應用各種深度數據挖掘技術,可以增強在數字圖書館中篩選相關圖書信息的效率。在數字圖書館的基礎上豐富個性化服務,更能滿足用戶的信息檢索和圖書閱讀的需求,提高用戶的閱讀效率[1]。為用戶提供更優質的個性化服務,已然成為每個數字圖書館管理者需要考慮的主要問題,也是和同類網絡信息資源建設產品競爭的重要手段。

1數字圖書館的概述

1.1數字圖書館的概念

美國密歇根大學于1990年提出建立電子圖書館,并將與閱覽室密切相關的各部門建立的館藏標準定義為數字化圖書館。該文對數字化圖書館的標準定義沒有研究不做過多闡述,將其具體定義為利用數字的含義、各種技術流程以內部存儲各種相關信息的軟件系統[2]。

1.2數據挖掘及相關技術

數據挖掘是指從數據中找出隱藏的、具有市場價值的信息內容,通過各種知識的刪除和選擇、提取以及尋找數據規律,使用統計、檢索信息數據庫以及多種模型識別等在數據庫中查找可用數據,然后尋找數據規則并運用規則,它能輸入特定名詞進行驅動查詢,挖掘信息中的規律[3]。數據進行深度挖掘的主要方式有聚類、分類與預測、關聯和偏差檢測。主要技術有決策樹、回歸分析、人工神經網絡等。建設數字圖書館只有綜合運用以上技術,才能建設好具有個性化特點的數字圖書館。

2個性化數字圖書館系統模型的設計與實施

2.1模型設計思路

數字圖書館個性化系統模型的設計應以用戶為中心,重點考慮數字圖書館的操作性,結構性以及可更新性,并對用戶、圖書資源進行分析挖掘。數據挖掘的個性化數字圖書館系統模型的設計就是要挖掘數字圖書館用戶的個人信息、上網行為,并從中分析出用戶的興趣愛好、學習關注點以及行為習慣,這樣才能向用戶提供優質的個性化服務,并為圖書館文獻的錄入提供依據[4]。

2.2對資源的分析

對用戶行為分析,根據用戶的注冊信息,借閱、瀏覽記錄進行聚類分析,劃分類別,針對不同的群組提供不同的服務方式和推薦模式;對被借閱書籍分析,被借閱次數多的圖書受眾面大,可作為圖書館的熱門圖書放在用戶登錄首頁或推送圖書板塊處。

2.3個性化系統結構模型設計

系統根據用戶在數字圖書館的注冊、登錄信息,建立用戶模型,根據用戶的檢索記錄形成信息庫。將用戶模型與信息庫進行匹配,通過匹配結果向用戶提供個性化信息服務。

2.4系統工作流程

根據用戶的注冊信息、檢索信息以及閱讀信息建立用戶信息庫和信息資源庫,個性化系統會調用用戶資源庫及信息資源庫,把用戶歸類并建立借閱行為模型,利用數據挖掘技術找出用戶意向資源,把信息推送給用戶。

2.5數字圖書館數據挖掘數據源選取

以中國國家數字圖書館為研究對象,中國國家數字圖書館館書藏書990多萬冊,電子文獻日瀏覽量非常大,瀏覽量越大其隱形價值信息就越豐富,該文選擇中國國家數字圖書館2016年1月到2019年12月的用戶借閱數據為個性化服務研究展開說明。

2.5.1用戶基本信息

序號、用戶編號、用戶名、注冊時間、讀者類型、借書狀態等信息、為用戶分類、借閱意向分類提供依據。

2.5.2借閱數據的處理

刪除用戶的重復信息以及已經注銷賬號的用戶信息、補全用戶信息表用戶屬性缺失的部分;借閱信息的清洗是數據集的核心部分,可以選擇借閱數量大的用戶群體為研究對象,清除借閱數量少的用戶群體數據[5]。數據挖掘要挖掘的兩個信息表中存儲字段的形式不同,需要進行數據轉換,在設計目標時,要了解用戶借閱圖書的次數以及感興趣的圖書類別,將圖書進行劃分,為縮短數據挖掘處理時間,還需處理用戶借閱次數、表名、用戶類型、字段名等方面[6]。

2.6數據集成

除了用戶信息表和借閱信息表,還需組織統計數據表,如圖書借閱次數集成表和用戶借閱次數集成表。圖書借閱次數集成表應包含以下字段屬性:圖書所屬類別、圖書館圖書借閱情況;用戶借閱次數集成表應包含以下字段屬性:用戶名、用戶編號、借閱次數。

關聯規則的分析過程中,將數字圖書館的借閱數據處理集成,把用戶對該類圖書有過借閱行為的取值為“1”,沒有過借閱行為的取值為“0”[7]。其用戶借閱事務數據如圖1所示。

從圖1數據可以看出,用戶編號為21324234與32141757的兩位用戶,從用戶圖書借閱量上來看,用戶21324234圖書借閱量為34,用戶32141757圖書借閱量為274;從借閱圖書類別上看,用戶21324234借閱類別偏向O類和U類的圖書,而對于用戶編號為32141757來說,他在圖書分類O類與U類處為0,則說明32141757對這兩類圖書不感興趣,它對P類與V類的圖書感興趣。將原數據進行清洗、轉換和集成,得到了滿足用戶需求的數據。

3數據挖掘在數字圖書館上個性化服務的應用

3.1信息定制與信息推送

數字圖書館的個性化服務就是數字圖書館針對不同用戶在不同的時間、地點,提供量身定制的服務。主要體現在用戶的個性化信息定制和信息推送服務,都是利用用戶的注冊信息以及用戶的網頁訪問行為形成用戶個人數據庫,然后系統利用數據挖掘技術及其他信息處理技術挖掘用戶關注的信息,并發送給用戶。根據數字圖書館可更新性原則,系統會在未來的工作中實時更新用戶個人數據庫滿足用戶實時的信息獲取需求。

3.2優化信息檢索服務

信息檢索是用戶與數字信息建立聯系的紐帶,在數字圖書館中應用數據挖掘技術,利用聚類算法將搜尋到的結果聚類分析,將提高信息檢索的效率。數據挖掘技術根據用戶的注冊信息、行為活動數據,分析出用戶的數據需求,然后搜索引擎將用戶檢索的相關信息呈現給用戶。

3.3優化個性化服務系統流程

用戶進入數字圖書館首先進行用戶信息注冊、登錄,這些與用戶的檢索記錄共同構成用戶數據庫。系統對用戶數據庫進行數據挖掘,構建“我的數字圖書館”。

3.4促進信息資源的管理

目前數字圖書館的文獻資源主要是電子圖書期刊,可利用聚類、關聯技術將圖書劃分為多組不同的類中,用戶在查閱圖書時,可關注和圖書處于同類的圖書,提高檢索效率;分析并歸納文獻資料里的最能概括文獻的關鍵詞及關鍵句作為文獻檢索的檢索詞,可快速檢索到同類別的資料;把文獻貼合主題的文本進行提取作為文獻的摘要,用戶可以通過摘要了解文章。

4數字圖書館個性化服務存在的問題及對策

4.1個性化信息的獲取來源少

目前主要的數字圖書館信息來源有:用戶的注冊信息表、搜索時的關鍵詞、瀏覽、服務器日志信息等。信息獲取來源太少,可綜合應用隱式獲取和顯示獲取收集個性化信息,建立完善的用戶評估及信息反饋機制。

4.2用戶信息研究不深入

用戶信息是個性化服務的基礎,需要收集用戶的背景資料以及信息需求,然后對這些信息進行全面的分析,才能真正促進數字圖書館的個性化服務建設。

4.3信息資源整合力度不足

信息資源整合力度不足指的是信息資源處于無序狀態,不能進行高效的信息結構建設。需要以用戶為中心,針對用戶數據需求和用戶注冊信息來進行館內資源建設,通過整理用戶所有信息,提高信息資源的利用率。

4.4信息安全存在隱患

加強用戶隱私及網絡信息安全的建設,提升用戶信任度并提交更多的個人信息,這些數據可支持數字圖書館為用戶提供更全面、更精確的個性化服務。

4.5不斷創新信息檢索方式

傳統的信息檢索方式得到的結果缺乏交互性、準確性、指向性,聯網信息內容數據庫的各種檢索模式可以完全支持新概念系統檢索、關鍵詞檢索數據庫檢索、關聯數據檢索和句子數據庫檢索,并且可以使用聚類優化算法來分析和聚類實際結果,使結果清晰條理的推送到用戶面前。

4.6完善個性化推薦技術

我國絕大多數數字圖書館仍以文獻搜索為主,這種非主動的服務方式為用戶提供的個性化服務是有限的,針對這一現象應該完善個性化推薦技術,將被動的提供搜索服務轉化為主動的提供推送服務。

5結語

在數字圖書館領域應用數據挖掘技術使個性化服務建設又上了一個新臺階。數據挖掘技術在數字圖書館中的應用,改變了數字圖書館被動服務的狀態,為用戶提供了更多個性化信息服務和行動支持,推動了數字圖書館的現代化、個性化服務建設。

參考文獻

[1] ELIZABETH B. Integrating Digital Stewardship into Library Instruction: An Argument for Student (and Librarian) Success[J]. The Journal of Academic Librarianship,2020,46(1):102099.

[2] 蔣秀麗.論高校圖書館個性化服務[J].中國多媒體與網絡教學學報,2020(3):108-109.

[3] 王慧娜.數字圖書館個性化交互服務行為信息挖掘系統設計[J].現代電子技術,2020,43(10):153-155,159.

[4] 范宇.基于大數據的高校圖書館個性化服務路徑[J].吉林化工學院學報,2019,6(12):67-70.

[5] 薩支斌,許震.基于個性化推送服務的數字圖書館學習資源提取[J].圖書與情報,2019(5):103-108.

[6] ?李冬云.利用關聯規則挖掘技術實現數字圖書館個性化推薦服務[J].蘭臺內外,2020(34):40-42.

[7] 陳越.數字圖書館個性化信息服務模式分析[J].山西檔案,2019(3):94-96.

3662500338241

猜你喜歡
數字圖書館數據挖掘個性化
基于數據挖掘探討慢性腎衰竭處方規律
為小學英語個性化合作學習單做加法
數據挖掘綜述
軟件工程領域中的異常數據挖掘算法
基于云計算的數字圖書館建設與服務模式研究
基于R的醫學大數據挖掘系統研究
芻議數字圖書館計算機網絡的安全技術及其防護策略
同桌寶貝
校本課程開發的個性化問題探討
呼喚雕塑家創作的個性化
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合