?

學者知識庫建設探究*
——以深圳學者知識庫為例

2019-01-10 03:00閆偉東深圳大學城圖書館廣東深圳518055
圖書館建設 2018年12期
關鍵詞:知識庫學者深圳

閆偉東 (深圳大學城圖書館 廣東 深圳 518055)

1 引 言

2017年10月18日, OCLC和歐洲國際研究信息組織(euroCRIS)建立戰略合作伙伴關系,通過合作研究來認識和了解國際科研信息管理(Research Information Management,簡稱RIM)實踐??蒲行畔⒐芾硎顷P于機構研究活動信息的匯總、管理和利用。而科研信息管理系統則是實現科研信息管理的支撐系統。OCLC副總裁洛坎登普西(Lorcan Dempsey)在2014年的一篇博文中,將科研信息管理系統視為圖書館潛在的新服務類別[1]。馬莉吉文斯(Marlee Givens)等認為科研信息管理系統與學者檔案系統(Faculty Profile Systems)密切相關,甚至是同義詞[2]。學者檔案系統(Faculty Profile Systems)是對機構學者的學術研究成果、學術活動等結構化數據進行收集、存儲和管理,旨在以各種方式重新調整和應用這些信息,國內又稱之為學者知識庫。學者知識庫能全面準確追蹤學者的學術軌跡,提升學者學術影響力,建立學者的學術聲譽,對于促進學術交流和科研合作等方面具有重大意義,因此國內外眾多的機構紛紛建設自己的學者知識庫,如明尼蘇達大學的Experts@Minnesota、杜克大學的Scholars@Duke、臺灣大學的學術庫(Academic Hub)、清華大學的學者庫等。相對于國外的機構而言,國內對于學者知識庫的建設和服務,還處在起步階段。

2 圖書館參與學者知識庫建設的意義

學者知識庫是以學者為中心對學者的學術成果、學術活動等數據進行收集、存儲和管理,涵蓋機構內設部門的人事數據、科研項目數據以及像Web of Science、Scopus等外部數據源的數據,通過學者知識庫將分散分布于機構內外不同部門、不同系統中的結構化和非結構化數據進行高效地整合,并通過可視化的統計及分析功能滿足眾多個性化的需求。擁有豐富的信息管理專業知識及數字資源建設經驗,在長期的服務過程中,逐漸成為學術生態系統的重要組成部分,也成為了教師和學生可信賴的合作伙伴,圖書館應利用這些優勢參與機構學者知識庫建設與服務,融入學者的科研過程,幫助其更好地管理學術成果,增加其學術影響力。

2.1 使圖書館成為機構知識創造過程中的一環

研究型圖書館的生存和發展,取決于其能否成為所在機構知識創造過程中的一環[3]。在數字化的環境下,機構科學研究的本質及模式發生了很大變化,為了應對這一變化,圖書館應重塑其服務的本質,在管理機構的科研產出方面發揮越來越大的作用,并努力成為本機構知識創造過程中必要的一環??蒲行畔⒐芾頌閳D書館提供了這樣的機遇,圖書館通過參與機構科研信息管理來保存和發現本機構的知識產出并擴大其輻射范圍,以支持機構的使命、目標和愿景。雖然眾多的研究指出,在機構的科研信息管理中,圖書館是最理想的合作伙伴,也可能是最理想的中心[4],但實際上目前圖書館往往又不是機構科研信息管理中被認可的關鍵合作伙伴[5]。如果圖書館不積極參與并提供這些服務,將進一步削弱圖書館作為研究過程中重要伙伴的形象。因此,圖書館應積極承擔機構科研信息管理的職責,并以機構學者知識庫建設為契機,努力成為機構知識創造過程中重要的一環,從而贏得整個機構對圖書館的認可和尊重。

2.2 建立與學者溝通交流的渠道

學者知識庫建設為圖書館提供了與學者深入溝通交流的渠道,圖書館在參與學者知識庫建設的過程中,必須與機構相關學術部門更緊密聯系;要想準確梳理學者的研究成果,也必須與學者密切合作;為使學者知識庫項目的順利實施,圖書館也必須承擔好面向學者的培訓及支持的角色,在這一過程中,圖書館員也增進了對于不斷變化的研究環境的理解,并從中尋找新的機會,為學者提供更有價值的服務。圖書館通過參與學者知識庫建設進一步拉近了圖書館與學者的距離,搭建起了學者與圖書館良好互動的橋梁。

2.3 促進圖書館機構知識庫服務升級

長期以來,機構知識庫僅以提供出版物存儲服務為主,難以引起學者的興趣,利用率較低。學者知識庫為機構知識庫提供了升級轉型的機會,將學者知識庫服務嵌入機構知識庫可以提升研究人員對機構知識庫的興趣[6]。學者知識庫建設可以整合現有的機構知識庫及其功能,通過學者知識庫與機構知識庫的互操作,將學者知識庫中書目數據、科研項目、出版物信息等不同類型的元數據自動導入機構知識庫,實現科研信息數據的自動收割、及時更新,機構知識庫結合學者知識庫的運行,可以使得更多的科研成果被開放、被發現、被獲取,同時,結合學者知識庫所提供的多元化服務,可以吸引學者使用機構知識庫。當然,機構知識庫也是學者知識庫的互補平臺,國外很多學者知識庫是依托本機構的機構知識庫而建,如杜克大學的Scholars@Duke。

3 深圳學者知識庫建設方案

3.1 建設目標及功能需求

表1 深圳學者知識庫功能需求

深圳大學城圖書館于2016年開始著手建設深圳學者知識庫,其功能需求設計如下頁表1所示,深圳學者知識庫旨在全面揭示深圳學者的科研成果,為深圳科研、創新、創業提供學術交流、溝通和共享平臺;展示深圳高校和科研機構的學術成果,增強深圳高校和科研機構的學術影響力;分析和評價機構的研究方向、趨勢和成果,評估和掌握本機構內各成員的學術研究水平;尋找與自身研究領域相同或相近的學者,增大彼此之間區域內的合作機會;實現學者與圖書館學科館員的無縫連接,及時獲取圖書館提供的學科服務。

3.2 系統架構設計

深圳學者知識庫建設的整體思路為:從主流數據源中采集元數據,然后對這些異構數據進行同構、合并和去重并構建論文庫、專利庫、項目庫,再與學者列表和成果信息進行匹配構建學者的成果庫,進而將學者的成果庫與學者個人主頁或個人簡歷信息進行關聯,對學者研究興趣進行挖掘分析,進而構建學者知識庫,并將學者及其學術成果在機構維度進行聚合及展示。深圳學者知識庫系統架構如圖1所示,包括4個層次:第一層是數據資源獲取與集成層,重點實現論文、專利、技術報告、學術活動信息、學者信息等數據資源的整理與集成。第二層是數據資源存儲層,該層以圖模式存儲所有數據資源,建立數據資源之間的關系網絡。其中論文、專利、學者是圖1中3種類型的頂點,而他們之間的連邊則構成多種關系,為快速高效檢索相關資源及深度知識挖掘奠定基礎;第三層是核心算法層,該層提供如分子圖、概率圖、主題模型等圖模式檢索算法及基礎數據挖掘算法,并提供標準算法接口,為深度數據挖掘及開放算法接口奠定基礎。核心算法層也提供數據檢索、學術評價等算法。第四層是應用層,該層在算法層的基礎上提供學術活動分析、專家發現及研究人員檔案及關系網絡分析等核心功能,同時建設開放式應用平臺,為后期開放系統接入更多第三方應用奠定基礎。

3.3 數據建設方案

國內外眾多機構科研信息管理系統多采用數據自動采集和人工提交相結合的模式,即在支持手動提交學者科研信息數據的基礎上,趨向于學者科研成果的自動收割、自動去重、自動入庫的數據獲取模式。深圳學者知識庫也采用這種主流的數據采集模式,同時,為了確保系統數據質量,對于自動抓取的數據,須經人工審核后才能入庫。學者也可以基于自身的具體需求,采用手動提交或批量導入的功能及時將本人最新的科研成果提交入庫。在實際的建設中,由于學者可能跨越多個工作機構,為了彌補機器自動抓取同一學者在多個工作機構的科研成果數據準確性較低的問題,深圳學者知識庫的數據建設分為兩個階段,第一階段是純手工階段,基于學者的簡歷,將學者當前及以前工作機構的科研成果經手工檢索、清洗、去重后并批量導入深圳學者知識庫平臺;第二階段是采用自動采集為主、人工提交為輔的數據采集模式,該階段的數據自動采集由于僅采集當前工作機構的數據,使數據的準確性得到了提高和保證。

圖1 深圳學者知識庫系統架構圖

3.4 關鍵技術

3.4.1 信息抽取及學者本體構建

深圳學者知識庫的學者本體是通過擴展FOAF(Friend of a Friend)本體模型的方式來實現的,在學者本體中,定義了2個概念、26個屬性和2個對象關系,其中屬性包括:學者基本信息、教育經歷以及學者研究成果。學者本體構造的思路為:首先通過搜索引擎用其姓名做關鍵詞搜索相關網頁,然后通過信息抽取算法從該網頁抽取學者的個人信息,構造學者本體的實例。具體而言,分為以下幾個步驟:頁面識別、預處理和信息標注。在頁面識別中,給定學者的姓名,通過搜索引擎得到一系列網頁。然后,通過訓練一個分類器來判定這些頁面是否是給定學者的個人主頁或者包含很多學者信息的介紹性網頁,然后把確認的網頁URL作為個人信息的屬性Homepage的值。預處理則首先把網頁文本分成一個個不同的類別令牌,其次,給不同類別的令牌設定不同的標簽,標簽的類型對應個人信息的屬性,即Position、Afliation、Email、Address、Phone、Fax等,令牌形成基本單位,頁面形成單位序列,對個人信息的語義標注就可以通過對令牌的標注實現。在標注中,給定一個單位序列,通過訓練標注模型來確定最可能對應的標簽序列[7-8]。

3.4.2 深圳學者知識庫學者姓名消歧

在數字知識服務的大背景下,消除文獻中作者姓名歧義、準確定位目標學者及其研究成果、解決學術界的“Who is Who”問題迫切且必要[9]。姓名消歧的方法通常有以下幾種:一是手工清洗方式,手工檢索學者完整的書目記錄,必要時增加對全文文章的檢查,并與其他信息來源進行比較,如個人網站、個人簡歷等,這也是最準確的方法;二是利用智能算法進行姓名消歧,建立目標學者與文獻之間的關聯;三是注冊機制,學者通過注冊建立個人姓名與文獻之間的關聯,如ORCID、ResearcherID等,但學者是否積極參與注冊會對注冊系統的推廣產生影響[8]。深圳學者知識庫一期建設時的姓名消歧是綜合方法一和方法二,第二期建設時會將注冊機制融入進平臺之中。深圳學者知識庫姓名消歧的自動化算法采用了基于約束的概率模型,利用隱馬爾可夫隨機場(HMRF)理論構造一個目標函數,將姓名消歧問題轉化為最小化目標函數問題。具體而言,給定一個人名為a,讓所有包含該作者的出版物命名為 P = {p1,p2,...,pn}。假設現有 k 名實際研究人員 {y1,y2,...,yk}有姓名a,任務就是把這n個出版物分配給他們真正的研究人員yi。消歧問題是為每篇論文分配一個標簽,每個標簽代表一個實際的研究人員yi。目標函數定義為給定論文x的研究者標簽y的條件概率:

其中D(xi,yk)是論文xi和研究者yk之間的距離,D(xi,yk)是論文 xi和 xj之間的距離;Ck(xi,xj)表示xi和xj的約束;wj是參數;Z(x)是歸一化因子。用基于期望最大化(EM)的方法來學習該模型中距離函數D()的參數[10]。

3.5 多層次服務體系構建

學者對于科研信息管理系統的期望包括:最大限度地減少數據重復維護的時間,支持科研信息數據互操作;確保其科研成果被發現,以增加其學術影響力;可以向同行和項目資助機構展示他們的學術貢獻;增加研究基金資助機會[11]?;诖?,深圳學者知識庫確立了以學者為本的建設原則,以為學者、為學校搭建多層次服務體系為目標,全面準確跟蹤、揭示學者的學術研究軌跡,為學者搭建學術交流、合作和共享平臺。深圳學者知識庫與學校統一認證實現了無縫對接,學者在登錄狀態時可以自行維護自身的科研成果,完成成果提交、認領、糾錯、設置文獻顯示與否等操作,也可以委托圖書館員和學院科研秘書完成上述操作,深圳學者知識庫實現了學者全學術生命周期科研成果匯集及揭示,同時提供了論文被引頻次追蹤、總被引次數累加、H指數、科研合作分析、相似論文推薦、專家搜索與推薦、研究興趣挖掘、成果瀏覽次數、學術成果評價等。同時對于機構管理者而言,通過本平臺可以及時了解本機構及學者的學術成果及學術影響力,為學者晉升、任期評聘提供客觀的數據支撐。同時,深圳學者知識庫的多元數據統計報表功能為駐大學城各高校的辦學績效提供詳實的數據。

4 關于學者知識庫的建設思考

4.1 溝通和合作至關重要

學者知識庫建設涉及眾多利益相關方,有人力資源、科研管理、教務管理、信息技術、圖書館等部門以及學生、學者,不同的單位及個體對學者知識庫有著不同的期望,要使所有利益相關方都能接受并利用系統,在系統建設的過程中,作為項目協調方的圖書館或者其他單位,必須切實認識到溝通和合作對于項目成功的重要性,從觀念上認清項目僅僅通過圖書館或者其他單一部門是不可能取得成功的,各相關方對項目也要有統一的共識,并能認識到合作是項目成功的前提,項目協調方自始至終都要與所有利益相關方保持持續及有效的溝通和交流,讓所有利益相關方深入地了解系統并參與到項目的建設中來。深圳學者知識庫在建設過程中,深圳大學城圖書館保持了與各校圖書館、學校人事處、科研處、信息技術等部門的持續溝通,走訪了多名學術帶頭人,了解各方對于深圳學者知識庫的期望,并向各方介紹深圳學者知識庫能夠給各方帶來的好處,引導各方在各自的業務中支持、接受及使用學者知識庫。

4.2 領導支持事半功倍

學者知識庫建設涉及眾多的利益相關方,項目成功需要眾多部門和個體的貢獻,項目如果能自始至終得到頂層領導的支持,將對整個項目大有裨益。領導的認同和支持不但能為項目建設帶來資金的支持和資源調配上的便利,而且更有利于各利益相關方的協調與合作,更重要的是能為學者知識庫建設與未來可持續發展帶來相關機制及政策的出臺。例如,杜克大學的學者知識庫項目Scholars@Duke自始至終都得到了學校校長、教務長、各學院院長的大力支持,共同推動Scholars@Duke建設與完善[2]。為了能取得領導對學者知識庫項目的支持和認同,學者知識庫項目建設團隊應不遺余力地向學校領導、學院領導宣傳學者知識庫,也可以選一批有影響力的學術帶頭人,通過與他們細致入微的互動以及學者對平臺切身的體驗,提升他們對平臺的興趣并獻身說法,從而間接地影響到機構領導,以進一步增加機構領導對平臺的認同。

4.3 學者參與是成功關鍵

對比科研信息管理系統與機構知識庫,研究人員對科研信息管理系統的興趣比對機構知識庫興趣更大,科研信息管理系統對他們來說更重要[6]。因此,作為科研信息管理系統的學者知識庫要以人為本,特別是以學者為中心,在學者知識庫建設上更要注重學者的參與,學者參與是學者知識庫系統取得成功的關鍵[12]。研究信息數據處理和質量保證需要一定的成本,雖然對科研信息進行自動挖掘、提取、消除歧義和聚合,可以減輕一些成本,但或多或少仍然需要學者的參與。學者知識庫建設團隊一定要讓學者認識到學者知識庫平臺的價值和重要性超過了他們參與和貢獻的時間成本。學者可以協助學者知識庫建設團隊提交或審核個人研究成果,以及常規性的個人頁面的數據維護,使自己不僅僅是研究信息的提供者,更成為自身研究信息的管理者,使自己的研究成果信息在平臺上全方位展示的同時,進一步提升自己的學術影響力。

4.4 務實的態度,漸進式發展的理念。

國內外學者知識庫建設實踐表明,學者知識庫建設是一個相對復雜的系統工程,依賴眾多人的參與,項目從規劃、設計以及實施需要很長的時間,并且是一個漸進的過程,要一步一步地走,絕對也不可能一蹴而就。并且在項目實施的過程中,學者知識庫的眾多利益相關方可能會不斷增加對學者知識庫的預期及功能需求,因此,試圖在短時間內推出一個完整的系統可能會導致對某些利益相關方服務水平的降低,反而造成他們對學者知識庫不好的第一印象,甚至成為固有印象,有了不好的第一印象后,對于未來學者知識庫的建設與發展十分不利,甚至是致命的。項目建設要秉承漸進式發展理念分階段實施,每一階段都設定一個期望值并且是可以超越的較低期望值。作為學者知識庫建設方的圖書館需要向所有利益相關方傳遞這樣的信息,即系統會有個漸進式發展的過程,并且系統在推出之初可能不能滿足所有功能需求。

4.5 數據質量是前提

對于學者知識庫而言,確保研究者身份元數據的質量是研究人員使用科研信息管理系統并在其中建立個人學術檔案的動機之一[13]。只有提高了學者知識庫收錄數據的質量,確保了學者科研信息數據的完整準確,才可以真正反映機構及學者的學術地位和學術影響力,進而增加機構及學者的學術知名度,吸引學者去使用學者知識庫并愿意去管理和維護自己的學術檔案。中國作者的英文重名比外國人重名嚴重,辨識也更加困難,即便有了一些智能的算法,但能在海量的信息資源中將屬于該學者全學術生涯的科研信息數據準確地歸屬到該學者的名下,也并不是一件容易的事情,并且如果該學者在學術生涯中跨越了多個工作機構,識別的難度將進一步增加。因此,當像ORCID等的身份識別碼在國內學者中還沒完全大規模使用的今天,為了確保學者知識庫數據的質量,機器識別的同時,還需要人的參與,需要學者、圖書館員或其他人對機器識別出來的數據進行進一步的審核確認。

4.6 宣傳推廣是成功保證

學者知識庫平臺高質量建設固然重要,但其宣傳與推廣對于其可持續發展也十分關鍵,應通過宣傳和推廣來讓更多的人了解和使用學者知識庫,讓學者了解到學者知識庫對他們的意義所在,從而使他們真正參與到學者知識庫的建設和發展中去。例如,杜克大學在建設學者知識庫Scholars@Duke時,作為項目參與方的杜克大學圖書館經常通過召開相關會議、拜訪學校及各院系部門領導、拜訪學者、在學校網站撰文等方式來宣傳Scholars@Duke的作用與意義,尋求各界的支持。在宣傳方法上,學者知識庫宜采用自上而下及自下而上結合的方法,在宣傳語言的使用上,館員應該把重點放在學者的目標實現上,而非是圖書館自身目標的實現,館員不應該重點討論如何讓學者提交他們的學術成果,而是重點討論通過學者知識庫,可以促進學者的學術成果交流,提升他們的學術影響力,讓學者感受到他們對自身科研信息數據及其構建過程有利害關系,并能讓學者感受到擁有這些科研信息數據和花費時間來維護對他們大有裨益。

5 結 語

科研信息管理系統作為圖書館潛在的新服務類別,正成為圖書館及其利益相關方密切合作的學術交流實踐的一部分。作為科研信息管理系統的學者知識庫通過對機構學者的學術研究成果、學術活動等數據進行收集、存儲和管理,增強學者學術成果的可發現性,促進學術交流,提升學者學術影響力,從而受到越來越多圖書館的關注。深圳大學城圖書館通過與深圳兄弟館、學校相關部門、教師等合作共建的深圳學者知識庫,多維度展示深圳高校及學者的科研成果,促進了學術交流。未來將基于學者和學校管理層的需求進一步完善平臺功能,協同各高校出臺相關的政策機制,以促進深圳學者知識庫的可持續發展。

猜你喜歡
知識庫學者深圳
學者介紹
學者簡介
漢語近義詞辨析知識庫構建研究
學者介紹
深圳歡樂海岸喜茶LAB店
基于TRIZ與知識庫的創新模型構建及在注塑機設計中的應用
深圳
學者介紹
深圳醫改破與立
衛星狀態智能診斷知識庫設計方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合