?

圖書館數字資源一站式檢索模型研究

2017-09-05 08:44張衛華??
河南圖書館學刊 2017年8期

張衛華??

關鍵詞:一站式檢索;分布式數據庫;集中式數據庫;混合式數據庫

摘要:文章對比分析了現存的分布式數據庫檢索模型、集中式數據庫檢索模型、混合式數據庫檢索模型的優缺點,提出了基于語義技術的圖書館資源檢索模型,并對其包含的本體字典、檢索歷史抽取庫和輸出系統功能做了介紹。

中圖分類號:G258文獻標識碼:A文章編號:1003-1588(2017)08-0074-03

信息社會的發展,使圖書館的館藏資源越來越豐富,尤其是電子資源越來越多,不僅體現在數量上,在種類上也各不相同。圖書館管理系統的不同,導致各種條目信息也不同,數字資源庫有自建數據庫和引進數據庫,尤其是引進的數據庫種類繁多,索引系統和管理方式存在很大的差異,資源的管理和查找極其不便[1],讀者獲取自己需要的信息難度比較大。如果對各個數據庫逐一檢索,信息資源的篩選是一項很龐大的工程,因此,目前迫切需要建立一個統一的信息檢索平臺,實現對圖書館各種資源的統一檢索。

1 一站式檢索功能分析

圖書館一站式信息檢索的關鍵技術在兼容上,重點是解決分布式異構數字資源的整合和檢索。設計檢索平臺應該包含數據處理子系統、索引子系統、搜索服務子系統、輸出子系統四個主要的系統部分,具體架構見圖1。

數據處理子系統的主要功能是元數據的制作和異構數據庫的轉換[2]。不同數據庫廠商的數據標準是不一樣的,這樣很難將關鍵詞抽出來直接使用,需要通過數據庫處理子系統對元數據進行規范。該系統采用《分類表》《主題詞表》實現資源的分類和標引,并分別從四個方面進行整理:①單位購買的大型數據庫(CNKI、維普、超星、書生之家等)采用專門開發的工具直接制作索引,或者采用關鍵詞傳送的方式進行檢索。②對于自建的小型數據庫采用數據庫轉換形式,統一到SQL SREVER數據庫統一索引。③外文數據庫采用關鍵詞傳送的形式,不再進行數據轉換,但是對兩個模塊都要檢索,并整合輸出。④對數據庫采用技術一致的數據資源庫,直接進行元數據的采集和收割。圖書館對數字資源進行元數據的整合,放在統一檢索平臺中供檢索系統使用。

索引子系統的主要功能是在元數據制作完成后,對數據進行格式化并建立索引[3]。這個系統主要還是管理人員進行操作,可以對所包含的數據庫進行配置、創建和優化工作,根據單位數據庫情況的不同,建立不同的索引數據庫子庫。

搜索子系統的主要功能是為讀者提供檢索的頁面。讀者在檢索子系統里可以選擇檢索范圍,如全部、期刊、圖書、光盤等,按照事先劃分好的大類選擇檢索。讀者也可以進行高級檢索,比如多個關鍵詞的邏輯檢索、時間段的選擇、數據庫的選擇等。另外,搜索子系統還有記錄用戶搜索歷史的功能,將部分檢索式進行收錄,形成機構知識庫并具有智能推薦功能。

輸出子系統的主要功能是將用戶檢索的結果輸出并進行排序,根據相關度算法,將匹配度最高的放在前面,并且具有分類輸出的功能,如果是綜合檢索的話,應該將不同類型的資源分類呈現給讀者。

2 檢索模型對比

圖書館資源一站式檢索系統的建設模式主要有三種:①自建。圖書館在計算機人才充裕的情況下可以自己建設一站式檢索,這樣成本較低,且符合圖書館的實際需要,易于維護和功能擴展。②購買。資金比較充裕,技術能力卻不強的圖書館可以采用購買的形式搭建一站式檢索。這種建設模式基本上是購買成熟廠商的平臺,在使用的過程中部分功能可能會缺失或者浪費,但是系統穩定。③合作。這是目前最合理的一種構建檢索平臺的形式,圖書館根據自己的需求,提出構建的檢索模式,公司負責進行開發,這樣針對性強,系統穩定,但是需要的成本也高。檢索模式的不同很大程度上是數據庫組織模式的不同,對數據庫的組織一般有分布式、集中式和混合式三種。

2.1 分布式數據庫檢索模式

分布式數據庫檢索模型是直接將存在的數據庫并列,即每一個數據庫是獨立的元數據和檢索接口,圖書館僅僅做了一個統一的檢索界面,將用戶輸入的檢索式分別傳入各個數據庫進行檢索,并將檢索結果匯總到一起反饋給用戶的一種模式。這種模式主要通過SRW/SRU或者Z39.50協議來實現(見圖2)。

這種模式的優點有:①開發簡單。圖書館不需要對現有的數據庫進行二次開發和元數據的收割和采集,擴展方便,易于維護。②可以大大節約用戶的時間。讀者只需要檢索一次就可以完成對所有數據庫的檢索。這種模式的缺點有:①這種搜索模式沒有自己的索引庫和資源庫,僅僅是一個檢索接口,不能滿足用戶的深層次檢索和自定義檢索。②如果沒有對輸出子系統進行二次權值定義的話,用戶對輸出結果的篩選工作量較大,尤其是檢索結果較多的情況下。③各個數據庫的檢索方式和標引方式不盡相同,這樣用戶在調整檢索式進行二次檢索的時候容易產生混亂。④不利于機構知識庫的構建。

2.2 集中式數據庫檢索模型

集中式數據庫檢索模型是指圖書館要建設一個收割程序,對所有數據庫的元數據進行收割,形成新的索引庫。用戶將檢索式輸入新建的索引庫進行搜索和匹配,然后將檢索結果輸出給用戶,提供給用戶的是索引庫的索引條目,用戶可通過超級鏈接查詢和使用原文(見圖3)。這種模式也是目前采用比較多的一站式檢索開發模式。

這種模式的優點有:①節約檢索時間,用戶只需一次檢索即可完成所有數據庫的檢索需要。②可以實現布爾檢索和高級檢索功能。③圖書館能夠形成自己的索引庫,對分類詞表維護比較簡單,方便提高檢索效率。④由于索引系統為本地程序,方便管理和統一標準的制定。這種模式的缺點有:①相對于分布式檢索系統來說開發有一定的難度,對軟件和硬件的要求較高。②索引庫建立后,系統擴展、接入新的子庫的工作量大,需要對元數據進行更新,實時性差。③檢索速度會受到一定的影響。

2.3 混合式數據庫檢索模型

混合式數據庫檢索模型是采集式和分布式的有機結合體,也就是這個一站式檢索系統中既有分布式檢索,也有采集式檢索。即其中的某幾個數據庫是分布式的,另外幾個是采集式的,形成混合式數據庫檢索模型[4](見圖4)。

這種模型的優缺點也是上面兩種模型優缺點的集中體現,其最大的優點是增加數據庫的方便快捷度,可以快速加入新的數據資源庫,如果是自建的數據庫可以并到采集模型,如果是購買的數據庫可以加入分部模型中。這種模型的缺點有:①系統對硬件和軟件的要求較高,數據庫量較大的情況下會影響響應速度。②檢索不統一,輸出結果的形式不好控制,不容易進行分類。③查重和輸出排序的實現較困難,檢索噪音較大。

3 基于語義技術的檢索模型

硬件技術的發展日新月異,包括通信技術的發展,目前4G/LTE的峰值傳輸速率已達到每秒100M,而5G的峰值速率將達到每秒10G[5]。所以,

圖書館在研究模型的時候盡量要考慮系統的查全率和查準率,將響應速度放在次要位置。語義檢索模型可以在很大程度上解決上面三種模型的不足(見圖5)。本模型與上述模型的不同之處在于多出了本體字典和檢索歷史的學習功能。

3.1 本體字典

本體[6]包含四個最基本的建模關系:Attribute-of表達某個概念是另一個概念的屬性;Part-of表達整體與部分的關系;Kind-of表達繼承關系,相當于上位類和下位類的關系;Instance-of表達實例與概念的關系,相當于類和對象的關系。本體技術對抽取的數據進行控制,形成本體詞典。

語義詞典可以清楚明白地表述詞語間的關系,并將其引入用來改善受控詞表。對搜索引擎的改進方法可以借鑒語言學詞典中對語義關系的描述,可以用來解析自然語言,實現通過詞語的意思對目標文檔進行深入的檢索,目前北京大學建立中文概念詞典CCD已經取得初步的成果。

一站式檢索系統引入本體詞典技術,將對分類表、主題詞表進行有效的補充,同時本體和語義技術所包含的四個關系可以有效地對檢索者的自然語言進行語義控制,并且判斷上位類、下位類信息,方便擴大和縮小檢索范圍,對近義詞進行檢索,提高查全率。其優點有:①經過本體詞典的規范,將檢索式傳輸到抽取的元數據庫進行檢索或者將本體詞直接傳輸到分布式數據庫中進行檢索,可以有效提高查全率。②本體是對事物本質聯系的描述,組成的檢索式更精準,可以克服分布式數據庫不能組合檢索的缺陷。③本體詞典維護簡單,一次性構建,定期維護即可。④可以通過組合框的方式進行勾選,選擇性地將檢索詞傳輸到某一個或者幾個數據庫進行檢索[7]。

3.2 檢索歷史抽取庫

檢索歷史可以反映一個單位或者部分用戶的使用和檢索習慣,尤其是在高校圖書館,本檢索模型可以通過本體技術從檢索歷史中抽取相關的檢索式和檢索結果,形成檢索知識庫,并抽取專業知識充實本體詞典,優化檢索效果,實現學習功能。

檢索歷史庫的優點有:①方便形成單位或者部門機構知識庫,用戶的使用結果和檢索式的演變過程本身就是一種知識,本系統可以將優秀的檢索式抽取并保存。②實現對用戶的檢索提示功能,主動將與用戶檢索相關的檢索式及檢索結果推送給用戶,供用戶使用或者改變檢索式。③縮短系統的響應時間,通過歷史檢索式查詢,系統只需要根據上次的檢索時間進行增量檢索即可,縮短了檢索時間。

3.3 輸出子系統

本體語義技術的引入,對輸出子系統的智能排序有很大的提高。檢索的結果是對象和實例,并且還包含實體與其之間的聯系,不再僅僅是超級鏈接和文檔的形式。通過研究深度指數和背景指數,讀者可以理解實體之間的關聯[8],其中深度指數可以反映出實體和關系的規范化程度,背景指數可以反映出讀者感興趣的范圍。

在圖書館一站式檢索輸出排序算法中引入實體關聯模型,可以提高查全率,搜索軟件可以很好地滿足用戶的提問并體現出各個實體之間的關聯,在關鍵詞與實體進行匹配的同時,進行檢索擴充和聯想[9],同時還可以根據檢索結果的上下位類關系、來源數據庫、時間、數據格式等進行分類并呈現給讀者,幫助讀者縮短資源的篩選時間。

4 結語

隨著信息技術的發展及移動圖書館、微圖書館等理念和技術的誕生,未來圖書館將在技術和用戶需求的驅動下,聚集更多的業務系統和資源類型,讓用戶在一個平臺上獲取圖書館或聯盟所有類型的資源信息,檢索平臺也將完成從信息檢索到知識檢索的轉變,更加注重網絡資源和區域聯盟資源的整合?;谡Z義技術的一站式檢索系統是圖書館知識發現最好的解決方案。

參考文獻:

[1]楊維超,劉陽,李淑霞.基于搜索引擎的一站式檢索平臺設計與實現[J].計算機與現代化,2012(11):220-222.

[2]唐光前.基于.NET Remoting的分布式異構數據庫一站式檢索系統模型研究[J].現代圖書情報技術,2006(8):37-41.

[3]解金蘭,王雅娟.基于新門戶建設的信息資源一站式檢索服務研究[J].情報理論與實踐,2013(8):62-65.

[4]朱志博,吳海霞.機構聯盟知識庫建設模式[J].圖書館學刊,2012(1):60-63.

[5]第五代互聯網技術[EB/OL].http://baike.sogou.com/v299325.htm.

[6]Perez A G,Benjamins V R.Overview of Knowledge Sharing and Reuse Components:Ontologies and Problem Solving Methods[C].Proceedings of the IJCAI-99 workshop on Ontologies and Problem-Solving Methods(KRR5),1999:1-15.

[7]何美琴,陳剛.區域高校圖書館一站式書目檢索平臺研究[J].情報科學,2011(4):560-562.

[8]Aleman-Meza B.Context-aware Semantic Association Ranking [EB/OL].http://lsdis.cs.uga.edu/lib/download/AHASO3-SWD-Wor kshop.

[9]王清飛.基于語義技術的搜索引擎模式研究[D].鄭州:鄭州大學,2010.

(編校:崔 萌)

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合