?

基于樸素貝葉斯的區域高校圖書館數字資源一站決策算法

2022-01-04 15:05顧春燕
軟件工程 2022年1期
關鍵詞:一站式數字資源決策樹

摘? 要:隨著智慧圖書館的興起,可以對圖書館數字資源大數據進行深入挖掘利用,區域高校圖書館數字資源一站式檢索必然是進一步增強館際合作、數據挖掘、資源互享的有效平臺?;跇闼刎惾~斯的區域高校圖書館數字資源一站式決策算法設計了一種決策樹與樸素貝葉斯模型相結合的兩層模型方法,通過提取整合區域內各高校圖書館數字資源大數據的特征屬性,并利用樸素貝葉斯模型進一步篩選特征屬性,從而構建決策樹架構,支撐區域高校圖書館數字資源一站式檢索。利用基于樸素貝葉斯的區域高校圖書館數字資源一站式決策算法可以實現檢索資源過程更加便捷高效,檢索結果的準確率呈現翻倍式增長。

關鍵詞:數字資源;樸素貝葉斯;決策樹;一站式

中圖分類號:TP312? ? ?文獻標識碼:A

文章編號:2096-1472(2022)-01-33-04

Abstract: With the rise of smart libraries, big data of library digital resources can be deeply excavated and utilized. One-stop retrieval of digital resources in regional university libraries is bound to be an effective platform to further enhance interlibrary cooperation, data mining, and resource sharing. This paper proposes to design a two-layer model method combining decision tree and Naive Bayes model, based on Naive Bayes-based one-stop decision-making algorithm for regional university libraries' digital resources. By extracting and integrating the characteristic attributes of the digital resources big data in various university libraries in the area, and using Naive Bayes model to further filter the characteristic attributes, a decision tree structure can be constructed to support the one-stop retrieval of digital resources in the regional university libraries. The one-stop decision-making algorithm for digital resources in regional university libraries based on Naive Bayes can be realized: the process of retrieving resources is more convenient and efficient, and the accuracy of retrieval results has doubled.

Keywords: digital resources; Naive Bayes; decision tree; one-stop

1? ?引言(Introduction)

近些年,隨著物聯網、大數據、云計算、人工智能等新興技術的發展,“智慧圖書館”成為圖書館界的研究熱點,研究者各自從不同的角度對“智慧圖書館”進行探討。AITTOLA首次提出“智慧圖書館”的概念,他認為“智慧圖書館”是一個不受空間限制且可被感知的移動圖書館[1]。王世偉認為智慧圖書館是以高效、互聯、便利為特征,以綠色發展為發展戰略,以數字惠民,引導讀者智慧閱讀,為讀者提供全方位一體化的服務為根本追求,實現廣闊互聯互通與共享融合的未來圖書館發展新模式[2]。未來的發展趨勢是基于智能化、網絡化、數字化信息技術,實現以人為本、綠色發展、廣泛互聯的具有高效、便利、互聯、智慧等特性的圖書館[3]。

對圖書館數字資源大數據可以進行深入挖掘利用,區域高校圖書館數字資源一站式檢索必然是進一步增強館際合作、數據挖掘、資源互享的有效平臺,是未來圖書館實現互聯互通、智慧共享的重要途徑。各高校圖書館購買的數字資源不同,各數字資源數據庫擁有不同的檢索平臺,導致用戶需要不停地切換檢索模式,獲取所需資源的過程耗時且繁瑣,而檢索結果會出現重復、不全面的現象。因此,構建區域高校圖書館數字資源一站式檢索顯得尤為迫切。

2? 圖書館數字資源一站式檢索研究現狀(Research status of one-stop retrieval of library digital resources)

以往針對“數字資源的一站式檢索”的學術研究主要都集中在平臺的搭建、分布式數據庫檢索模型、混合式數據庫檢索模型、集中式數據庫檢索模型、基于語義技術的檢索模型。

何美琴、陳剛通過構建區域高校圖書館一站式書目檢索平臺來解決讀者在書目檢索中遇到的困難,在區域高校資源共享、優勢互補的基礎上,使讀者享受到一站式書目檢索帶來的快捷方便[4]。楊偉超、劉陽、李淑霞提出構建基于搜索引擎的一站式檢索平臺,實現在統一的檢索界面上,一次檢索就能獲得所有電子資源的相關文獻信息[5]。唐光前提出了一種基于.NET Remoting的分布式異構數據庫一站式檢索系統模型,向用戶提供一步到位的跨庫檢索服務,可以最大限度地減少檢索步驟[6]。張衛華提出了一種基于語義技術的圖書館資源檢索模型,增加了本體字典、檢索歷史抽取庫和輸出子系統[7]。

不難看出,目前對于圖書館數字資源一站式檢索的平臺架構、數據庫架構的研究已經相對成熟,但較少學者將樸素貝葉斯和決策樹算法一起應用于圖書館數字資源一站式檢索。如何獲取更加高效、更加精確的檢索決策算法是本文研究的重點內容。

3? 基于樸素貝葉斯的區域高校圖書館數字資源一站式決策算法的整體框架(The overall framework of a one-stop decision-making algorithm for digital resources of regional university libraries based on Naive Bayes)

由于地域、自身辦學水平和資金能力的差異,以及各高校重點建設學科的不同,我國高校圖書館數字資源存在資源存儲量差距較大、重點學科資源傾斜性較為明顯、資源的利用率較低等問題[8],而區域高校圖書館數字資源一站式檢索能有效地解決上述問題。因此,本文提出了一種基于樸素貝葉斯的區域高校圖書館數字資源一站式決策算法。

區域高校圖書館數字資源一站式決策算法的整體框架如圖1所示。

(1)由區域內各高校成員圖書館數字資源數據庫構成“成員館數字資源數據庫”;

(2)提取各成員館數字資源特征屬性構成訓練樣本,構建區域高校圖書館數字資源一站式檢索決策樹模型;

(3)進行決策樹剪枝,構建區域高校圖書館數字資源一站式檢索樸素貝葉斯模型,計算輸出概率,當大于50%時,獲取當下所有特征屬性重新構成樣本庫;

(4)篩選后的特征屬性構成的新樣本庫支撐區域高校圖書館數字資源一站式檢索。

4? 基于樸素貝葉斯的區域高校圖書館數字資源一站式決策算法具體步驟(Specific steps of one-stop decision-making algorithm for digital resources of regional university libraries based on Naive Bayes)

4.1? 構建區域高校圖書館數字資源一站式檢索決策樹模型

(1)提取區域高校圖書館數字資源大數據作為所述C5.0決策樹模型的訓練樣本S,根據該訓練樣本S獲取數字資源特征屬性并將其作為所述決策樹模型的輸入變量,每個輸入變量都有其對應的分類,其中,的值由其對應的分類值確定,如表1所示。

(2)為了解決訓練樣本S自身信息熵偏大的問題,采用信息增益率來替代信息增益進行最佳分支變量的選擇,即根據所述訓練樣本S的信息增益率選擇所述決策樹模型的最佳分支變量。該信息增益率計算公式如下:

其中:

為區域高校圖書館數字資源檢索結果的決策樹輸出變量,,分別對應成員館1數據庫、成員館2數據庫、……、成員館n數據庫;

為訓練樣本S的樣本總數;

為訓練樣本S中屬于成員館的樣本數量;

為訓練樣本S中包含輸入變量分類值為的屬于成員館的樣本數量;

為訓練樣本S中包含輸入變量的樣本數量;

為訓練樣本S中包含輸入變量分類值為的樣本數量;

為訓練樣本S的信息熵,為高校圖書館數字資源特征屬性在訓練樣本S中的條件熵,為高校圖書館數字資源特征屬性分類在訓練樣本S中的條件熵;

為高校圖書館數字資源特征屬性的信息增益。

(3)提取區域高校圖書館數字資源大數據并從下向上進行決策樹后剪枝,其關鍵是誤差的估計及剪枝標準的設置。該決策樹后剪枝具體方法如下:

采用置信區間法,給定置信水平,假設第 個節點上的 個診斷預測中有 個是錯誤的,則錯誤率為,且通過正態分布表得到第 個節點上的區域高校圖書館數字資源檢索結果的誤差滿足:

令,的置信區間為:

假設父節點上的診斷結果的誤差為,每個子節點占該分支樣本量的比例為,對父節點擁有的所有子節點的診斷結果的誤差進行加權計算:

當所有都取最小值時,如果,則將該父節點的所有子節點都修剪去除(如圖2所示,其中node2、node6、node8的子節點都已修剪去除)。

4.2? 構建區域高校圖書館數字資源一站式檢索樸素貝葉斯模型

(1)從區域高校圖書館數字資源大數據中提取包含上述決策樹模型篩選后的特征屬性數據,并重新構成訓練樣本D,提取上述決策樹模型中所有輸出變量為(成員館1)的節點(以圖2為例,提取以后的結果如圖3所示)。

(2)自上向下獲取每個節點所經過的特征屬性分類,并定義第 個節點所擁有的特征屬性集合為:,其中是對應節點所擁有的特征屬性的個數。

(3)再利用貝葉斯公式得出第 個節點上輸出變量為成員館1的可能性概率,則為:

其中:

為訓練樣本D的樣本總數;

為訓練樣本D中屬于成員館的樣本數量;

為訓練樣本D中包含輸入變量的屬于成員館的樣本數量。

(4)當大于50%時,獲取第 個節點上的所有特征屬性構成新樣本庫,新樣本庫將直接作為檢索數據庫提供檢索。

5? 決策樹與樸素貝葉斯模型相結合算法的優點(Algorithm advantages of combining decision tree and Naive Bayes model)

(1)該算法首先基于區域高校圖書館數字資源的大數據,采用決策樹模型來預測檢索結果,并將信息增益率作為選擇最佳分支變量的依據,提高了分類的精度;然后采用樸素貝葉斯模型進一步篩選特征屬性,對檢索結果進行概率計算,經過上一層模型的預處理,檢索結果更加精確;同時采用決策樹和樸素貝葉斯兩層模型的新思路進行數字資源的一站式檢索,擺脫了以往一層模型檢索結果區間大、范圍廣、較為模糊的缺陷。

(2)該算法的決策樹模型是利用訓練樣本自頂向下構造的,而后再從下向上剪枝,都是通過節點關聯,利于結構化編程的實現。同時,算法中的樸素貝葉斯模型的數學計算方法更利于計算機的處理,實現起來很容易。

(3)該算法構建區域高校圖書館數字資源一站式檢索C5.0決策樹模型,其是C4.5應用于大數據集的分類算法,提高了執行效率,減少了內存使用。同時,C5.0決策樹模型規則十分直觀,在面對數據遺漏和輸入字段很多的問題時非常穩健,并且它通常不需要很多的訓練次數。

6? ?結論(Conclusion)

本文提出了一種基于樸素貝葉斯的區域高校圖書館數字資源一站式檢索。該方法設計了一種決策樹與樸素貝葉斯模型相結合的兩層模型方法,通過提取區域高校圖書館數字資源大數據中的特征屬性,構建區域高校圖書館數字資源一站式檢索決策樹模型,然后根據訓練樣本的信息增益率選擇所述決策樹模型的最佳分支變量,接著從下向上進行決策樹后剪枝,最后構建區域高校圖書館數字資源一站式檢索樸素貝葉斯模型來進一步篩選特征屬性構成樣本庫,從而實現數字資源的一站式檢索。

決策樹和樸素貝葉斯兩層模型相結合,使得檢索結果更加全面精確?;跇闼刎惾~斯的區域高校圖書館數字資源一站式決策算法可以讓資源相對豐富的高校扶持資源相對匱乏

的高校,形成良好的“多”扶“少”局面,可以實現不同類高校之間的學科資源互補和資源的相互利用,同時保持各高校圖書館的相對獨立[8]。

參考文獻(References)

[1] AITTOLA M, RYHANEN T, OJALA T. Smart library—location-aware mobile library service[C]// CHITTARO L. Human-computer Interaction with Mobile Devices and Services. Berlin: Springer, 2003:411-416.

[2] 王世偉.未來圖書館的新模式——智慧圖書館[J].圖書館建設,2011(12):1-5.

[3] 黎梅,郭廣軍.大數據背景下高校智慧圖書館建設路徑研究[J].湖南文理學院學報(自然科學版),2020,32(02):34-39.

[4] 何美琴,陳剛.區域高校圖書館一站式書目檢索平臺研究[J].情報科學,2011,29(04):560-562.

[5] 楊偉超,劉陽,李淑霞.基于搜索引擎的一站式檢索平臺設計與實現[J].計算機與現代化,2012(11):220-222.

[6] 唐光前.基于.NET Remoting的分布式異構數據庫一站式檢索系統模型研究[J].現代圖書情報技術,2006(08):37-41.

[7] 張衛華.圖書館數字資源一站式檢索模型研究[J].河南圖書館學刊,2017,37(08):74-76.

[8] 顧春燕.建立我國高校圖書館電子資源的互補機制[J].四川圖書館學報,2015(06):66-68.

作者簡介:

顧春燕(1988-),女,碩士,館員.研究領域:智慧圖書館.

猜你喜歡
一站式數字資源決策樹
一種針對不均衡數據集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應用
建立中文DOI標識在科技期刊出版中的作用
高校數字資源云服務平臺的建設研究
評價高校圖書館數字資源綜合服務能力
基于決策樹的出租車乘客出行目的識別
圖書館與出版企業數字資源共享的環境因素分析
基于肺癌CT的決策樹模型在肺癌診斷中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合