?

“211工程”高校圖書館發現系統調研與思考

2019-01-15 11:12張毅
數字圖書館論壇 2018年12期
關鍵詞:本館超星搜索引擎

張毅

(華東師范大學圖書館,上海 200241)

隨著互聯網的迅速發展,大數據與人工智能技術的成熟,讀者閱讀行為的不斷改變,需要圖書館在館藏建設與資源揭示方面不斷創新。近年來,電子館藏的總量與增加量已經遠遠超過紙質館藏[1],但是圖書館現在還只能通過OPAC對紙質館藏進行簡單管理,沒有有效的手段對浩如煙海的電子館藏進行管理揭示[2]。原因在于每種電子資源都有各自獨立的平臺,并且各種平臺之間無法互操作,形成一個個“信息孤島”。讀者在使用圖書館資源時需要在多個不同平臺之間切換,無法有效找到需要的資料[3]。由于缺少功能完備的電子資源管理工具,圖書館沒有辦法掌握所購買的各種資源是否符合讀者需求,容易造成資源錯配。

雖然圖書館很早就意識到這種問題的存在,也嘗試使用各種手段去解決問題。如通過建立電子資源導航[4],為讀者提供圖書館所購買的數據庫列表,但是讀者只有在明確知道自己所找的資源的具體位置時才有幫助,而且需要檢索多個數據平臺,并且對檢索的結果進行去重排序等工作。當數據平臺量比較少時,這種方式可以實現,但是現如今圖書館少則有幾十個數據庫與期刊,多則有幾百個數據庫與期刊,人工方式篩選數據會造成遺漏;第二種方式是建立聯邦檢索[5],這種方式是利用各種系統提供的接口,實時查詢,并將查詢記錄返回給讀者,雖然可以減少讀者在不同平臺之間搜索數據的麻煩,但是因為無法事先對不同平臺數據進行清洗加工,導致返回數據質量差,而且同時檢索多個平臺,系統響應速度會非常慢。由于缺少管理電子資源的有效方法與工具,圖書館雖然擁有經過專家鑒定的高質量內容資源,但無法有效地揭示給讀者,讀者最終只能使用搜索引擎查找與甄別互聯網上參差不齊的資料。圖書館與讀者都亟需一種可以全面揭示圖書館資源的系統,在這種背景下,發現系統(discovery system)應運而生[6]。

1 發現系統概述

美國國家教育統計中心對發現系統的定義是:它獨立于圖書館特定的資源平臺,采取適當的機制對圖書館多種館藏進行檢索,對檢索到的內容進行相關性排序,并呈現讀者感興趣的內容,可以根據類別、作者或者日期等來縮小檢索結果,提供相關內容建議,改進檢索方式[7]。美國國家信息標準組織指出了圖書館發現系統未來發展的方向[8],分析了發現系統從在線目錄、元搜索到資源發現的發展過程。其中元搜索階段已經基本具備發現系統的功能,限于技術環境的發展階段,最初元搜索系統采取分布式檢索方式獲取資源,而很少采取集中式元數據匯聚模式[9]。

本文所闡述的發現系統指的是集中式元搜索模式,采用預先收割的方式存入統一的元數據標準體系中,對元數據進行去重、清洗、標注、索引等操作,形成一個龐大的元數據索引庫,不斷地對索引庫進行更新與優化,并按照發現系統獲取元數據的不同方式分為資源發現系統與學術搜索引擎兩大類。資源發現系統的元數據是自有或者與數據庫提供商合作,通過數據收割協議獲取元數據,數據質量高、時效性好;學術搜索引擎的元數據來自其機器爬蟲通過HTTP協議在互聯網抓取的數據,雖然獲取的數據范圍廣,但質量參差不齊。

1.1 資源發現系統

資源發現系統最早出現于2008年,聯機計算機圖書館中心(Online Computer Library Center,OCLC)推出了全球第一款資源發現系統World cat Local,緊隨其后的是Series Solution公司的Summon(2009年7月)、Ebsco公司的EDS(2010年1月)及Ex Libris公司的Primo(2010年6月),形成4種發現系統。根據供應商原有業務的不同,這4種發現系統各具特色。Ex Libris公司是圖書館集成系統提供商,沒有數據庫資源,需要與大多數數據庫廠商合作獲取元數據,所以Primo系統在元數據收集、處理及揭示方面比較中立。Summon與EDS都是由內容提供商開發的發現系統,由于其自身具有龐大的電子資源,而且在資源發現領域耕耘多年,所以數據內容更加豐富[10]。國內資源發現系統起步較晚,但由于對中文數據收集更加全面準確,本地化做得更好,移動互聯網與社交網絡功能豐富,所以在國內市場的表現并不輸于國外產品,國內的資源發現系統有超星發現與維普智立方等。

1.2 學術搜索引擎

搜索引擎天然地在資源收集方面擁有優勢,可以通過機器爬蟲在整個互聯網中搜集資料,然后通過索引提供給用戶使用[11]。學術搜索引擎的出現遠早于發現系統,2004年11月谷歌公司推出第一款學術搜索引擎——谷歌學術。2006年1月擴展到中文學術資源,隨后在2009年11月微軟學術推出微軟學術搜索,但目前仍不支持中文。2014年是國內學術搜索引擎爆發的一年,百度學術和360好搜紛紛問世。學術搜索引擎由于其背后強大的技術支持,完全免費開放使用,受到讀者和圖書館的歡迎。谷歌學術和微軟學術在英文文獻覆蓋方面有優勢;百度學術和360好搜更加擅長中文知識的發現;百度學術專門為圖書館提供數據整合接口,圖書館可以將本館購買的電子資源與紙質資源元數據上傳到百度學術,實現數據的深度融合[12]。

2 “211工程”高校圖書館發現系統現狀調查

2.1 發現系統的類型調查

本研究調查時間段為2018年10—12月,調查了113所“211工程”高校圖書館[13],通過圖書館的主頁獲取其采用的發現系統情況,有4所高校圖書館的官網無法打開,可獲得數據的高校圖書館有109所,詳細調查信息如表1所示。本文的數據分析以這109所可獲取數據的高校圖書館為依據。

可以看到,109所“211工程”高校中,引進發現系統的有94所,其中使用資源發現系統的有88所,使用學術搜索引擎的有37所。引進中文資源發現系統的有66所(中文資源發現系統只有超星發現),引進外文資源發現系統的有68所(外文資源發現系統分別是Primo、Summon、Find+、EDS),中英文發現系統都采用的有46所。既引進資源發現系統又采用學術搜索引擎的高校有31所,占引進學術搜索引擎高校的84%,其中有6所高校只引進了學術搜索引擎。采用的學術搜索引擎有3種,分別是百度學術、谷歌學術及微軟學術。從使用的比例來看,百度學術占了絕大多數,113所“211工程”高校中有32%的高校圖書館采用百度學術,使用率占學術搜索引擎的95%。谷歌學術使用量少的原因是國內不能直接訪問谷歌學術網站,只能通過谷歌學術鏡像訪問,而鏡像的穩定性比較差。微軟學術使用率低的原因是其產品存在問題,它不支持圖書館本地資源整合且沒有中文數據等缺陷。各種發現系統的具體采用比例如圖1所示,可以發現,學術搜索引擎的使用比例并不低,百度學術比資源發現系統超星使用量少,但是高于其他4種外文資源發現系統。

2.2 發現系統的建設方式

資源發現系統的建設方式一般有3種,最常用的方式是直接采購成熟的產品,配上本館的電子數據庫與紙質館藏元數據,這種方式最為簡單方便。發現系統產品已經比較成熟,圖書館不需要耗費過多的人力物力去建設,而且均為云平臺,不需要在圖書館本地搭建服務器,無須圖書館投入人力去維護。采用這種方式的有華東師范大學圖書館的超星發現與Summon系統、清華大學的Primo系統及南開大學的EDS系統等。第二種是聯合研發模式,這種方式的優點非常明顯,可以做到一站式檢索,深入與圖書館的OPAC整合,用戶體驗最好。采用這種建設方式的圖書館有重慶大學“弘深搜索”,是對傳統OPAC的升級,讀者可以一站式檢索電子資源與紙質圖書(“弘深搜索”底層的元數據由超星公司提供)。第三種是采用開源軟件方式建設發現系統,常見的發現系統開源軟件有vufind、endeca、blacklight、scriblio等。如北京大學、西安交通大學利用scriblio構建的新一代OPAC系統。

表1 “211工程”高校圖書館發現系統調查結果

圖1 “211”工程高校各種發現系統的采用情況

采用學術搜索引擎實現圖書館資源發現的方式比較單一,微軟學術沒有中文學術數據,只有外文數據,而且不能與圖書館資源整合。谷歌學術需要在圖書館本地構建鏈接解析器(link resolver)[14],將圖書館本地數據提交給谷歌學術,由于國內只能通過鏡像網站訪問谷歌學術,并不穩定。國內圖書館采用的學術搜索引擎主要是百度學術,圖書館可以將購買的電子數據庫、本館館藏等提交給百度學術,由百度學術對這些數據進行解析,通過IP控制實現針對本館的資源揭示;圖書館還可以對百度學術的界面進行修改,使其更加本地化。將本館電子資源整合到百度學術的高校有浙江大學、南京大學、中國科學技術大學等;將本館紙質館藏與百度學術融合的高校比較少,如中南大學。

3 “211工程”高校圖書館常用發現系統分析

3.1 發現系統的特征分析

為挖掘發現系統特點對高校圖書館發現系統選擇的影響,本文對國內關注度比較高的4種資源發系統和3種學術搜索引擎進行調查分析,具體調查結果見表2。

表2 發現系統特征調查

分別從元數據特征、系統特征、整合本館資源、在線科研等方面進行分析,可知發現系統有以下特征。

(1)元數據特征。除谷歌學術和微軟學術外,其他5種系統的元數據總量都可以查到。從查到的結果看,Summon的數據量最大,有9億條記錄;其次是超星發現有5.5億條記錄。3種國外的發現系統主要收錄英文數據,而超星發現以中文為主。數據的來源方面,資源發現系統的數據基本上來自數據庫商,沒有收錄萬維網的數據,Summon和EDS數據主要是自有數據,而Primo的數據來自合作的數據庫商,超星電子書是自有數據,期刊主要來自合作的數據庫商。學術搜索引擎的數據主要來自爬蟲機器人從萬維網中抓取的數據,經過清洗索引后形成,其中微軟學術沒有中文數據。由此可見,資源發現系統的數據質量更高,而學術搜索引擎的數據面更廣。

(2)系統特征。系統的響應速度極大地影響用戶體驗的好壞,從調查的結果中發現,國外資源發現系統的響應速度很慢,主要是因為發現系統基本上都是云端部署,在國內沒有數據中心,每次訪問都要從國外服務器返回數據,所以速度很慢,而且不穩定。從調查的結果看,學術搜索引擎的響應非常迅速,百度學術只需16毫秒,瞬間就可以返回查詢結果,用戶體驗極好。相較于資源發現系統,學術搜索引擎會提供一些免費的原文,并且學術搜索引擎全部是免費使用,基于搜索引擎的強大技術,大多數學術搜索引擎都可以實現讀者檢索行為學習,幫助讀者更好地發現自己需要的資料。

(3)與本館資源整合情況。整體上來說資源發現系統與本館資源整合較好,都可以做到發現系統查詢結果跳轉到館藏OPAC。其中Primo幾乎可以取代本館的OPAC,不僅可以查看本館的館藏位置,而且有預約續借等功能。學術搜索引擎與本館的整合度較低,沒有一個學術搜索引擎可以顯示本館館藏的位置,但基本上可以實現紙質資源與電子資源的一站式發現。

(4)在線科研情況。在線科研方面,學術搜索引擎功能強大,其中百度學術和谷歌學術都有學者主頁,學者可以訂閱、收藏所需要的資料,但是資源發現系統沒有這些功能。在移動科研方面,所有的發現系統都提供移動網站,但是與微信對接的只有百度學術,讀者關注百度學術的微信公眾賬號,可以獲取自己訂閱的資料,使用過程比較方便。

3.2 圖書館資源與發現系統結合能力分析

發現系統與圖書館資源整合能力體現了發現系統資源覆蓋能力。除學術搜索引擎外,一般的資源發現系統都可以覆蓋圖書館的電子期刊與紙質館藏,但是圖書館還有很多自建數據庫,這些數據庫之間存在非常巨大的差異,在圖書館內以一個個“信息孤島”的形式存在,由于“211工程”高校數量太多,本文僅對師范類“211”工程高校圖書館特藏資源的特征進行調查。調查時間為2018年11月,調查方法是通過圖書館的主頁及電話咨詢,并且參考2015年全國師范院校圖書館聯盟文獻資源建設調查問卷[15],調查結果見表3??梢钥闯鎏夭刭Y源的類型、平臺,以及數據庫管理軟件存在巨大的差異,發現系統要整合這些資源存在不小的挑戰。但是它們的數據管理軟件都具有導出數據與對外提供訪問接口的能力,這就為特藏資源整合到資源發現系統提供了方法。發現系統只需要提供特藏資源導入格式標準,圖書館將特藏資源按照一定標準提交給發現系統,發現系統即可以實現對圖書館特藏資源的統一發現。

表3 師范類“211工程”高校圖書館特藏資源特征

3.3 發現系統讀者使用率分析

發現系統的使用率是衡量發現系統好壞的重要指標之一。谷歌趨勢可以反映某一區域內關鍵詞檢索頻次,文本通過谷歌趨勢查詢了2015年12月—2018年12月Primo、EDS、Summon、百度學術、超星發現的熱度變化[16],調查范圍是中國(見圖2)。由于采用“超星發現”作為關鍵詞沒有記錄,所以改為“超星”進行比對。從圖2可以看出,2017年1月之前資源發現系統的熱度比百度學術高,尤其是Primo系統,但之后百度學術熱度迅速升高,而且遠高于資源發現系統。此外,國外發現系統的熱度在降低,而國內的超星發現熱度在上升,這也與筆者所在華東師范大學采用的超星發現和Summon兩種系統的使用情況相符,根據發現系統供應商提供的訪問數據,2017年超星發現訪問量是95.43萬次,Summon訪問量是4.23萬次,使用中文發現系統是外文發現系統的20倍。

圖2 5種發現系統熱度隨時間變化的趨勢

4 發現系統選型思考

通過對“211工程”高校采用的發現系統調查,發現系統之間的優勢區別很大,這與發現系統提供商自身的主營業務有關,Summon與Primo在數據庫方面有優勢,而EDS和超星發現在電子圖書方面做得更好。學術搜索引擎在萬維網數據獲取方面更有優勢。發現系統與區位也有巨大的關系,國內發現系統擅長中文數據揭示,外文發現在中文揭示方面比較弱,根據發現系統的特點與“211工程”高校對發現系統的選擇分析,本文給出系統選型的一些建議。

4.1 根據學校類型選擇

調查中可以看出113所“211工程”高校中有86%的高校都已經采用發現系統,這些高校中有師范類、工科類、藝術類等,在選擇發現系統上,圖書館可以根據學校的類型挑選。如師范類院校,北京師范大學圖書館選擇了Primo、超星發現與百度學術3種發現系統,華東師范大學的發現系統是Summon與超星發現,南京師范大學是Primo與超星發現。從這3所師范高校圖書館所選擇的發現系統中可以得到,每家圖書館都引進了中英文兩種資源發現系統,中文發現系統都是超星發現,而外文發現系統是Summon與Primo,其中北京師范大學還采用了學術搜索引擎(百度學術)??梢?,師范類高校在選擇發現系統時,可以考慮從上述發現系統中選擇。

4.2 根據讀者特征選擇

讀者是發現系統的最終使用者,所以引進發現系統要盡量考慮到讀者的需求,不同類型的讀者對發現系統的需求差別很大。如高校學生會比較喜歡使用百度學術這樣的學術搜索引擎,一是由于學生接觸的百度的產品比較多;二是本科階段學生對資源的要求不高,百度學術一般可以滿足讀者的需求;三是百度學術還有幫助讀者撰寫學位論文的功能,更加適合學生使用。而從事專業學術研究的科研人員更愿意選擇Summon與超星發現這樣的資源發現系統,因為這類用戶的研究內容更加專業,學術搜索引擎從互聯網上抓取的數據質量無法達到用戶的要求。

移動互聯網時代,移動設備成為讀者科研活動的重要工具,在眾多的資源發現系統中,只有超星公司有移動客戶端,并且使用方便,如果讀者的移動學習活動比較多,那么超星發現是一個好的選擇。學術搜索引擎方面,百度學術移動化功能較好,百度學術開通了微信公眾賬號,讀者關注百度學術微信公眾賬號,就可以在微信中查看自己訂閱的內容。

4.3 根據經費選擇

資源發現系統需要支付費用才可以使用,而學術搜索引擎都是免費開放的,所以圖書館也可以根據自身經費選擇發現系統。雖然資源發現系統數據質量高,可以更好地與圖書館自有資源整合,但是需要經費支持才可以使用,所以對于暫時經費不足的圖書館,也可以使用學術搜索引擎。百度學術可以將紙質館藏與電子館藏融合到百度學術中,并且通過IP控制,對本校讀者開放自有資源。使用百度學術揭示資源的圖書館有中國農業大學、北京林業大學、中國礦業大學等高校,而且上述高校只采用了學術搜索引擎,沒有購買資源發現系統。

4.4 根據與圖書館OPAC融合度選擇

在調查的“211工程”高校中,與本館OPAC融合中比較有特色的是重慶大學圖書館的發現系統,它不是將本館OPAC數據整合到發現系統中,而是將超星發現系統的數據整合到本館的圖書館主頁,讀者可以在圖書館主頁實現OPAC數據與發現系統數據的統一檢索,而無須跳轉到發現系統商的網站。清華大學圖書館的OPAC與Primo系統深度融合,可以在Primo發現系統中登錄讀者借閱賬號,實現本館紙質館藏的續借及預約等功能。在與本館OPAC整合方面,學術搜索引擎功能比較差,基本上資源發現系統都可以做到查看本館紙質圖書館館藏地,而學術搜索引擎目前無法實現。

4.5 根據發現系統語種選擇

現階段發現系統還無法在中英文資源方面同時并重,國外的發現系統對外文資源收錄較好,而國內的發現系統在中文資源收錄方面較好,所以在資源發現系統選擇時需要考慮到本館資源的語種類型。從調查的結果看,同時采用中英文兩種發現系統的高校有46所,占88所采用資源發現系統高校的52%,如中國人民大學、北京航空航天大學、上海交通大學等高校都是采用中英文兩種發現系統。

學術搜索引擎方面,百度學術與谷歌學術都同時支持中英文資源發現,國內的百度學術中文資源豐富,而谷歌學術在英文方面支持較好,而微軟學術只支持英文數據。對于學術搜索引擎,由于其免費的特點,圖書館都可以采用,給讀者多一個選擇。

5 結語

本文通過對113所“211工程”高校圖書館發現系統使用的調查,分析國內高校主要采用的發現系統類型、建設方式,以及每種系統的功能特點,得出發現系統已經成為圖書館必備的資源統一揭示工具,無論是圖書館對電子資源的管理需求,還是讀者對紙電資源統一發現的需要,發現系統都不可或缺?,F階段發現系統進展非常巨大,有一些發現系統已經可以整合本館OPAC的所有功能,但是整體上發現系統還處于成長階段,有很多不完善的地方。如還沒有一種發現系統可以滿足中英文資料的統一發現,在與圖書館OPAC系統融合方面也存在諸多障礙,這需要圖書館與資源發現系統供應商共同努力,提升發現系統的功能。雖然資源發現系統優勢在于元數據質量及整合圖書館本地資源方面,但是學術搜索引擎也有很多方面值得資源發現系統學習,如系統響應速度、在線科研及機器學習等。希望通過本研究能給圖書館采用發現系統提供一些建議,為讀者提供更加優質的知識服務體驗。

猜你喜歡
本館超星搜索引擎
超星數據庫錄入證
大學英語混合式教學模式研究與實踐——以“超星學習通”教學平臺為例
Rotation of dust vortex in a metal saw structure in dusty plasma
超星二號維修基地
民營繪本館:兒童閱讀推廣的“毛細血管”
網絡搜索引擎亟待規范
基于Nutch的醫療搜索引擎的研究與開發
繪本館:童書營銷新支點
基于Lucene搜索引擎的研究
我們的都市有童話
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合