?

搜索引擎的學術應用對圖書館數據服務的啟示

2017-10-11 04:00羅曉蘭
數字圖書館論壇 2017年8期
關鍵詞:搜索引擎百度圖書館

羅曉蘭

(上海中醫藥大學圖書館,上海 201203)

搜索引擎的學術應用對圖書館數據服務的啟示

羅曉蘭

(上海中醫藥大學圖書館,上海 201203)

開放數據是科研重要的數據來源,但在目前的科研數據開放共享中卻被忽視。本文以科研中常用的搜索引擎數據為例,分析科研成果對開放數據的使用情況。從中國知網和萬方數據庫獲取國內以谷歌和百度產品為研究數據來源的期刊論文(4 212篇)作為研究數據,通過人工標引和詞頻統計的方式,對國內科研論文中對搜索引擎產品數據使用情況進行統計,分析搜索引擎數據的使用特點、研究領域和發展趨勢,為圖書館制定合理的科研開放數據服務政策、構建合適的科研數據服務模式提出建議。

學術研究;搜索引擎;開放數據;圖書館

1 研究背景

開放數據在政策、經濟和社會發展條件的不斷促進下,已具備深厚的數據積累。數據開放要求政府重視數據的搜集、公布、開放和運用[1],促使政府自身或大眾能較為便利地獲取和再利用這些信息[2]。數據共享讓大眾生活更加便利和智能,也為科學研究提供海量數據資源。促進開放數據的利用有助于釋放大數據的能量,以大數據為動力支持社會創新,以創新發展智能經濟[3]。目前數據共享的研究主體主要是科研過程中產生的科學數據[4],但免費公開獲取的開放數據源常被忽視。

開放數據源涵蓋在科學研究中利用的開放數據集、公共搜索和統計服務、開放平臺和研究工具等,具有公開性、可得性、完整性、即時性等特點,主要由政府、科研機構、非政府組織、開放的商業平臺、互聯網應用程序等提供[5]。在各學科領域都存在具有行業特色的開放數據,這些數據被廣泛使用到科研項目中。另外,還存在部分各學科通用數據,如搜索行為數據、在線社區文本、微博話題關注數據等。

在開放數據集中,來自于搜索引擎的數據是常用數據類型,貫穿科研工作的始終。搜索引擎提供的開放數據具有使用范圍更廣、適用性更強、可獲得性更高等優勢。尤其是在大數據科研理念下,基于用戶搜索行為、在線交互行為、健康行為、學術行為、網絡輿情等數據的數據量更大,更具有時效性。

作為重要的公開信息資源,搜索引擎的學術應用主要有兩種形式:一是以搜索引擎產品提供的數據作為研究數據來源,二是以搜索引擎提供的平臺或產品作為研究對象。其在科研中的應用優勢主要包括數據可獲得性高、數據覆蓋范圍廣、實時性強、數據的認可度較高,還可通過實時、豐富的開放數據增加科研成果的創新程度。相關科研成果涉及輿情分析、反恐、人口統計和決策、金融投資、旅游服務、健康管理、教育教學等領域[6-7]。此外,搜索引擎也為科學研究提供許多高效實用的研究工具,如Google Earth、Google App Engine、百度云等。

在目前科研數據共享的趨勢下,面對科研第四范式下科研人員對科學數據及其應用的需求變化,作為數據資源服務方的圖書館須思考如何有效提升開放數據資源建設的服務能力,開展科學數據服務[8-9]。但與出版商和期刊雜志社相比,圖書館并沒有獲取科研數據的先天優勢條件,由此在科研過程中產生的科研數據共享進程也推進緩慢。

2 數據獲取及分析

2.1 數據獲取及預處理

在中國知網和萬方期刊文獻數據庫中檢索國內利用百度、谷歌提供的工具、數據、資源(如谷歌趨勢、谷歌地圖、百度指數)等進行學術研究的期刊論文。檢索式為:篇名/題名 OR 文摘=百度 OR Baidu OR 谷歌 OR Google,搜索時間為2016年8月20—31日。通過題錄信息進行初步篩選,保留有效題錄,包括利用搜索引擎提供數據和工具進行研究、以搜索引擎產品為研究對象的論文,隨后刪除重復記錄,形成統一格式的有效文本集。

對篩選過的文獻題錄進行人工標引,標引格式為“技術/產品/數據—年代”,如Google Earth—2016。產品和數據編碼目錄來源于文獻篩選過程中對產品和數據類型的統計。

為保證標引質量,進行兩組人工標引。人工標引的評分者信度系數為0.986(P<0.01,Sig雙側為0),說明兩組標引者一致性很高,但仍存在二者標注不一致的情況。如對產品名稱描述的不一致、對多種數據共同使用的標引缺失、標引中的錯誤等,隨后根據論文內容進一步確認標引信息,形成一致的結果。

經過篩選后的期刊文獻題錄數據共4 212條,基于百度提供的數據進行研究的有1 121篇,基于谷歌數據的有3 091篇。從文獻量看,2001—2013年,利用百度或谷歌提供的數據進行研究的成果處于上升態勢。

2.2 搜索引擎在學術研究中應用的頻次統計

搜索引擎積累了大量的搜索行為數據、語料資源、具有社交屬性的用戶自生成內容、搜索趨勢和地理信息數據。搜索引擎不僅可為科研活動提供豐富的數據,還能將部分服務或產品二次開發嵌入新的科學研究,降低科研初始開發的時間成本和經濟成本,為科研工作創造更多可能性。谷歌和百度在平臺構建和開發工具方面為廣大科研人員提供較大的擴展空間,如谷歌地球、谷歌地圖和百度地圖等為地理、地質、交通運輸、航空航天、林業、畜牧業、農業、資源環境等學科提供基礎資源數據,一般研究模式是在免費版的谷歌地球基礎上二次開發,并與實際需求相結合進行個性化加工,實現功能擴展。

根據數據分析結果,基于谷歌的學術研究常用資源有谷歌地球、谷歌地圖、谷歌搜索、谷歌數字圖書館、谷歌學術、谷歌安卓平臺、谷歌云計算等;基于百度的學術研究常用資源有百度搜索、百度地圖、百度指數、百度貼吧、百度文庫、百度百科、百度知道等。

3 搜索引擎在學術研究中的應用分析及討論

3.1 搜索引擎在學術研究中的應用統計

搜索引擎在學術研究中的應用主要有搜索工具和統計、地理信息系統、在線文檔系統和百科類問答系統、社交互動平臺、開發平臺及其他專業類數據(見表1)。作為獲取行為數據和查詢文獻信息的重要補充來源,搜索數據是研究中使用最多的數據來源,而地理信息系統在專業領域中使用最頻繁。

(1)搜索應用。學術研究常用的搜索應用包括通用搜索、學術搜索、專業搜索、搜索指數和趨勢統計,不同類型的搜索類產品在科研中的應用情況,如表2所示。

表1 搜索引擎在學術研究中的應用統計

表2 搜索類產品在學術研究中的應用統計

其中,在科研中常用的搜索趨勢統計數據是搜索服務的衍生品,常用于經濟學、行為學和信息科學研究,如百度指數和谷歌趨勢。百度指數主要用于投資行為、旅游管理、流行病預測、產品關注度及變化趨勢、票房預測、房地產、就業、輿情分析、空氣質量、食品監管、城市發展研究、消費者信心指數、受眾行為分析、出版發行等方面(見表3)。

表3 百度指數在學術研究的應用統計

(2)地理信息系統。谷歌地球、谷歌地圖、百度地圖等是研究使用頻率最高的專業數據來源,主要應用于地理、地質、測繪、交通運輸、電力工程、地球物理學、電信、建筑工程、林業、水利水電、氣象、資源環境以及教育培訓等領域。研究模式主要有兩種:一種是通過谷歌地球等軟件的API及KML二次開發接口快速提取相關模型、數據和影像資料,實現工程設計的高度仿真,用于設計、施工、評估等多個階段;另一種是通過前期測量獲取數據,將設計方案通過谷歌地圖或百度地圖提供的二次開發接口進行加工呈現,使設計方案可視化并可通過移動客戶端進行瀏覽和調用。

地理信息系統作為谷歌和百度在學術應用中數量最多的數據類型,存在嚴重“偏科”的特點。除測繪、地理信息、農業、林業、牧業、漁業等學科外,社會科學的很多創新研究也可借助地理信息系統開展,如將百度地圖、谷歌地圖與圖書館的讀者服務、自助圖書館等結合起來,利用在線地圖構建基于地理位置的用戶服務和用戶行為分析。

(3)在線文檔系統和百科類問答系統。在線文檔系統及百科類問答系統為科研提供大量持續增長的研究數據和文本資料,是文本分析研究的常用數據來源。在線文檔系統是國內近年來發展較快但頗受爭議的研究熱點,主要用于文獻獲取,或作為課程教學資源數據庫使用[7],最受關注的是版權問題[10]。百度百科和百度知道是常用的百科類問答系統,其產生的大量文本資源是很有價值的科研數據來源,主要用于問答系統的運作模式和用戶行為[11]、網絡文本處理方法[12]、在線知識分享行為和模式[13-14]、網絡信息行為及信息擴散研究[15]、在線問答系統的文本質量[16]、語義分析和文本挖掘[17-18]等研究。從研究成果發布時間看,這類系統研究屬于比較新的研究領域,還有繼續深入研究的價值。

(4)社交互動數據。使用社交互動平臺數據的研究主要集中在圖書館學、情報學、計算機科學、新聞傳播學和教育學。百度貼吧、百度知道等根據用戶需求對行業和學科類別進行細分,形成數個聚集大量用戶且具有社交互動性質的平臺。在國內期刊論文中使用百度貼吧的情況更多,主要用于研究電視節目關注與傳播[19]、網絡群體管理[20]、網絡語言傳播[21]、在線互動行為[22-23]、網絡互動文化[24]等。百度知道數據主要用于研究在線互動平臺機制[25-26]、基于社交網絡的信息和知識傳播[27-28]等。由于這些產品的社交屬性不如微信、微博等社交媒體,因而并不是社交網絡研究的主流數據來源,研究領域較狹窄,數據被挖掘的程度不高。智能移動終端普及以后,移動終端使傳統論壇和互動問答平臺的社交屬性更強,便于繼續追蹤基于平臺APP的移動使用行為數據,開展研究工作。

(5)開發平臺和工具。搜索引擎提供開源的平臺工具為科研和教學提供幫助,這些平臺和工具大致可為兩類,一是提供開發平臺或技術支持,二是共享資源和協作學習。如谷歌協作平臺是側重于團隊協作的網站編輯工具,可幫助企業創建企業內網、進行項目管理跟蹤等,用戶通過谷歌協作平臺將所有類型的資源(包括文檔、視頻、圖片、日歷等)與好友、團隊或網絡分享[29]?;诖颂匦?,谷歌協作平臺被應用到“云計算輔助教學”實踐,并取得較好成效[30-31]。谷歌云計算開發平臺(Google App Engine)同樣在應用軟件開發、教學課程資源庫建設、自主學習、協作學習、數字圖書館建設等領域中使用[32-33]。同樣,百度推出的同類產品(百度云、百度眾包平臺、百度開放服務平臺等)也在科研中得到應用[34-35]。

除以上列舉的主要應用形式,在大數據決策的發展趨勢下,搜索引擎提供的相關數據平臺和服務(百度大數據+)、專業信息服務(百度健康、百度閱讀、百度旅游)、在線特色服務(谷歌線上藝術博物館)、在線特色小工具等都可成為可用的科研開放數據源,但目前鮮有成果出現。

3.2 搜索引擎學術應用總結

基于搜索引擎的開放數據價值得到學界普遍認可,但目前對開放數據的應用程度還不夠深入,從目前國內科學研究對搜索引擎數據的使用中發現以下兩個問題。

(1)數據應用層次太淺,只有部分數據被有效利用。如利用谷歌和百度地理信息系統的相關研究約1 700條,占總體研究數量的40%,而60%中像百度拇指醫生、百度閱讀、谷歌眼鏡、谷歌線上虛擬博物館等未被開發利用的數據就有可能存在科研的創新點。未來基于不同平臺、不同場景的數據融合,將是科研數據利用的發展趨勢。

(2)在學術研究中頻繁使用的數據存在偏好,基于同類型數據的研究設計、方法和過程雷同,科研創新性不高,如何讓有價值的數據在科研實踐中發揮更大的作用,在研究模式、方法和切入點上值得學者進一步探索。

4 討論及未來研究方向

4.1 搜索引擎的學術應用對圖書館數據服務的啟示

從搜索引擎數據應用的案例分析可見,開放數據在各學科學術研究中應用廣泛,是可利用的有效科研創新資源。但國內對開放數據的關注較少,成果的嚴重“偏科”也從側面說明部分學科對開放數據的應用太少,開放數據的發現、抓取、整理、發布、利用和評估整個流程缺乏規范和指導。而資源獲取、整合和推廣等工作是圖書館的優勢,因此可基于科研用戶對開放數據的使用特點,在圖書館進行館藏資源建設、特色數據庫開發和服務,以及在資源整合過程中吸取有用經驗,提供更人性化和個性化的資源服務。

(1)構建開放數據資源目錄,做好開放數據資源發現和導航工作,幫助用戶獲取更多開放數據用于科學研究,提升科研創新性?,F階段科研數據共享工作提倡用戶公開共享科研活動產生的數據,但不能忽視開放數據的應用。圖書館應抓住大數據分析和決策的發展趨勢,更多應用公開、易獲得的原始數據,為學術研究和管理決策提供資源支持。圖書館雖然不擁有科研成果數據的版權,但可根據用戶學科背景和需求,對公開研究數據集進行搜集和加工,整理開放數據資源目錄,為用戶提供免費數據參考咨詢和數據推薦服務。目前全球范圍內有價值的開放數據集數量巨大,用戶在研究中所使用的占比較少,大部分有價值的開放數據還未被利用。此外,在開放數據主題新穎性、研究模式的創新等方面有待加強。

(2)開展學科數據服務,做好開放數據獲取的輔助工作。目前科研人員處于信息和數據海量增長的時代,圖書館可通過開展學科數據服務、嵌入式科研輔助服務等形式,幫助科研人員搜索可利用的開放數據、制定數據獲取方案、尋求最佳獲取途徑;此外,還可提供存儲空間和運行設備,評估數據價值,輔助數據分析工作,實現科研貢獻和學術共享空間的職能。

圖書館的信息資源、用戶行為數據、空間數據等也頗具研究價值,可開放給用戶進行科學研究。如上海圖書館利用整理的家譜數據開展開放數據應用開發競賽,力求更充分地釋放開放數據的價值,最大程度挖掘其背后的應用潛力,激發創新能力,這種雙贏互動的形式值得推廣。

(3)建立開放數據獲取平臺,整合學科資源、知識和數據,加強不同層次資源和數據的關聯性??蒲泄ぷ餍枰墨I、知識、數據和工具等多種資源,但大部分資源分散在不同機構和平臺,并未進行整合。圖書館可利用其在文獻資源整合管理方面的經驗和優勢,將用戶所需科研資源、知識、數據和工具進行整理和發布,利用關聯技術建立不同類型資源的聯系,構建開放數據獲取平臺,方便科研用戶使用;還可提供數據使用情況分析報告和研究進展供科研人員參考,通過資源和服務整合提升科研成果創新。

(4)做好對科研人員的數據素養培訓。從搜索引擎數據在研究中使用可以發現,學科、研究主題間差異明顯,部分學科并沒有利用可公開獲取的龐大數據進行科研活動。除學科特點有所不同,科研數據素養是限制國內科研人員充分使用開放數據的制約條件之一,圖書館在進行數據資源服務過程中可向用戶提供相關培訓,包括對相關研究設計、數據抓取、工具使用、數據可視化等進行輔導,結合圖書館提供的數據資源服務,針對基于數據研究的發展趨勢,組織數據分析培訓課程,更好地輔助教學科研。

4.2 本文不足之處和未來研究方向

公開的科研數據將有望成為圖書館在數據服務階段進行深度挖掘和整合的服務資源,在學術研究中還有極大的價值等待挖掘。本文在樣本數據選取時只選取搜索引擎開放數據,不夠全面。在下一步研究中應將國內學術研究中常用的搜索引擎服務、社交網絡數據、政府機構和非營利機構提供數據等的利用情況納入研究范圍,如豆瓣、微博、微信和行業特色數據源集等。然后,與國外研究情況進行對比分析,獲取科研用戶使用行為特點和需求,為國內基于開放數據的科學研究事業提供寶貴經驗,為圖書館構建開放數據資源服務目錄和服務體系提供支持。

[1]張毅菁.從信息公開到數據開放的全球實踐——兼對上海建設“政府數據服務網”的啟示[J].情報雜志,2014(10):175-178,183.

[2]陳美.美國開放政府數據的保障機制研究[J].情報雜志,2013(7):148-153.

[3]BERTOT J C,鄭磊,徐慧娜,等.大數據與開放數據的政策框架:問題、政策與建議[J].電子政務,2014(1):6-14.

[4]劉晶晶,馬建華.論科研數據開放共享的三種途徑[J].情報雜志,2015(10):146-150,96.

[5]畢秋靈.數據新聞中的開放數據應用[J].湖北社會科學,2016(7):190-194.

[6]楊濱.論云計算輔助教學(CCAI)中協作學習產生的設計機制——以Google sites下的協作學習為例[J].現代教育技術,2009(11):95-99.

[7]王玉龍.基于百度文庫的微課資源社區構建策略研究[J].中國遠程教育,2015(2):73-78.

[8]黃金霞,馬雨萌.大數據時代開放信息資源的數據服務能力思考[J].數字圖書館論壇,2016(8):54-59.

[9]陳建新.科學數據服務:圖書館服務的新領域[J].圖書與情報,2013(4):93-95.

[10]張麗波,馬海群,周麗霞.避風港原則適用性研究及立法建議——由百度文庫侵權案件說起[J].圖書情報知識,2013(1):122-127.

[11]常靜,楊建梅,歐瑞秋.基于TAM的百度百科用戶參與意向的影響因素研究[J].軟科學,2010(12):34-37.

[12]陸勇,章成志,侯漢清.基于百科資源的多策略中文同義詞自動抽取研究[J].中國圖書館學報,2010(1):56-62.

[13]夏火松,王瑞新.百度百科詞條特性對知識共享意愿影響的實證研究[J].科學學研究,2010(12):1877-1883,1890.

[14]黃令賀,朱慶華,沈超.差異與穩定:網絡百科用戶興趣動態變化研究[J].圖書情報知識,2016(2):101-113.

[15]張洋,盧橋.中文社會化媒體信息老化的計量分析[J].情報雜志,2015(3):77-84.

[16]孫曉寧,趙宇翔,朱慶華.基于SQA系統的社會化搜索答案質量評價指標構建[J].中國圖書館學報,2015(4):65-82.

[17]許坤,馮巖松,趙東巖,等.面向知識庫的中文自然語言問句的語義理解[J].北京大學學報(自然科學版),2014(1):85-92.

[18]段利國,陳俊杰.綜合句法結構及語義相似度的問題推薦技術[J].計算機科學,2012(1):203-206.

[19]張倩,戴建華,閆萌萌.基于電視劇網絡點播量分析的社會化媒體價值研究[J].現代傳播(中國傳媒大學學報),2013(11):59-62.

[20]張郁文.淺析貼吧粉絲群體的管理——以“羅志祥吧”為例[J].新聞世界,2014(8):154-156.

[21]賀潔.從大眾傳媒看“土豪”的傳播與發展[J].青年記者,2014(24):86-87.

[22]萬力勇.網絡百科用戶協同創作的互動機制研究——以百度百科貼吧為例[J].情報雜志,2014(1):167-172.

[23]王國華,劉菊,楊騰飛,等.網絡空間中艾滋病的社會支持研究——以百度貼吧“HIV吧”為例[J].情報雜志,2015(11):105-110.

[24]李可安.新媒體傳播方式下的粉絲文化——以新浪微博和百度貼吧為例[J].科技傳播,2015(12):92-93.

[25]趙麗紅.互動式知識問答分享平臺對虛擬參考咨詢服務的啟示[J].圖書館建設,2009(5):62-64.

[26]霍建梅,李書寧.圖書館數字館藏建設用戶參與激勵機制探究[J].圖書情報工作,2015(2):5-10.

[27]寧寒松.線上互動系統中“輿論領袖”的缺失及成因——以百度知道為例[J].新聞世界,2012(8):119-120.

[28]王小立.百度“知道”知識傳播對個人數字圖書館資源共享的啟示——基于系統動力學方法[J].圖書館,2016(2):83-87.

[29]百度百科.Google Sites[2016-11-7].http://baike.baidu.com/link?url=osu 8ZSzbSC_yozf1NaziwxabhN79UBmlyhleJvg1OW3jlKneQVkshAvO1 Gah1uU5mI5n61Nu3t0YMsUUkxSQ1dldtesmhwsRiawt-xQ3vqu.

[30]楊濱.論云計算輔助教學(CCAI)中協作學習產生的設計機制——以Google sites下的協作學習為例[J].現代教育技術,2009(11):95-99.

[31]徐瑞.Google協作平臺在中小學教師教育技術培訓中的應用探究[D].上海:華東師范大學,2010.

[32]劉曉剛.基于開源云計算的遠程教育系統的設計與實現[J].中國教育信息化,2011(9):40-43.

[33]王佳雋,呂智慧,吳杰,等.云計算技術發展分析及其應用探討[J].計算機工程與設計,2010(20):4404-4409.

[34]陳霞,閔華清,宋恒杰.眾包平臺作弊用戶自動識別[J].計算機工程,2016(8):139-145,152.

[35]丁峰,梅曉亮,張麗.專業群教學資源信息化面向移動APP題庫的設計及實現[J].信息系統工程,2016(5):148-149,152.

Abstract:Open data is an important source of data for scientific research,but it is neglected in the scientific data sharing system.This study takes the search engine as an example to analyze the usage of open data in scientific research.4 212 items got from CNKI and Wanfang to analyze the Google and Baidu data use behavior by the way of manual indexing and word frequency statistics,including their characteristics,frequency and tendency.Based on this,the author made recommendations to develop open data service policy and service mode for library.

Keywords:Academic Research;Search Engine;Open Data;Library

The Academic Applications of Search Engine and Its Inspiration to Library Data Services

LUO XiaoLan
(Shanghai University of TCM Library,Shanghai 201203,China)

G252.7

10.3772/j.issn.1673-2286.2017.08.007

羅曉蘭,女,1985年生,博士研究生,講師,研究方向:信息檢索、健康信息行為、技術采納與行為,E-mail:miaoqu11@126.com。

2017-04-24)

猜你喜歡
搜索引擎百度圖書館
Robust adaptive UKF based on SVR for inertial based integrated navigation
圖書館
百度年度熱搜榜
網絡搜索引擎亟待規范
百度醫生
基于Nutch的醫療搜索引擎的研究與開發
百度“放衛星”,有沒有可能?
去圖書館
基于Lucene搜索引擎的研究
搜索引擎,不止有百度與谷歌
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合